立项原因
该集团在2024年全面拥抱AI,各事业部(黑电、白电、机器人与自动化)同时启动数十个大模型训练任务,面临以下困境:
1)直接采购NVIDIA H100成本过高(单卡10万+),而国产卡(昇腾、寒武纪)利用率不足20%
2)各事业部独立采购GPU,资源孤岛现象严重,整体利用率仅40%
3)模型推理服务存在大量空闲时段,资源浪费严重
解决什么问题:打造一套异构GPU统一调度平台,具备以下能力:
1)异构GPU(NVIDIA/昇腾/寒武纪)的统一纳管与智能调度
2)显存超卖与弹性扩展(利用CXL内存池 + NVMe-oF)
3)推理服务的Serverless化,空闲自动缩容至0,按毫秒计费
4)支持模型分层加载、GDS、Graph Cache等高级特性
行业背景
国内AI算力正从“野蛮采购”进入“精细化运营”阶段。混合部署(H100训练 + 国产卡微调 + A100推理)成为大中型企业标配。能够驾驭异构算力调度、精通HAMi/CXL/RDMA等前沿技术的人才,极度稀缺,市场供给远小于需求。
模块 | 功能说明
异构GPU发现与注册 | 基于HAMi框架,自动识别NVIDIA、昇腾、寒武纪等不同厂商GPU,上报型号、显存、算力、健康状态
智能调度器 | 实现Binpack(碎片最小化)、Spread(高可用)、Affinity(数据本地化)、Cost(成本优先)等多种调度策略,支持策略热切
CXL内存扩展 | 当单卡显存不足时,自动挂载CXL内存池作为L3缓存,或通过RDMA访问远端内存池,支持热迁移
vLLM推理接入 | 一键部署LLM模型,自动选择最优GPU,支持动态batching(Continuous Batching),提升吞吐量
Serverless运行时 | 函数级别的GPU调度,空闲5秒自动缩容至0,按毫秒计费,支持模型预热池
模型分层加载 | 大模型按层动态加载,降低启动内存峰值,支持NFSoC(Near-Far Storage Class)分级存储
GDS(GPU Direct Storage)| GPU直接读取NVMe/SSD,绕过CPU,降低IO延迟
GPU Graph Cache | 缓存计算图,减少编译开销,提升重复推理性能
HAMi分割策略 | 支持显存分割、算力分割、混合分割,实现GPU资源细粒度共享
我负责的任务
1)整体架构设计:定义从“资源抽象 → 调度决策 → 任务执行 → 弹性伸缩”的全链路架构
2)调度器核心算法实现:Binpack + 多目标优化(成本优先/性能优先/混合模式),支持权重动态调整
3)CXL/RDMA集成方案设计:与硬件团队配合,打通内存池调用链路,实现热迁移
4)运维平台建设:配置管理、监控告警、审计日志、节点运维操作
技术栈:Kubernetes + HAMi(异构GPU调度框架)+ CUDA + PyTorch + vLLM + SGLang + CXL协议 + RDMA(InfiniBand/RoCE)+ Go(调度器)+ Java(管控面)+ Prometheus + Grafana
难点与技术亮点
难点 解决方案 技术亮点
异构GPU的统一抽象|基于HAMi扩展Device Plugin,实现厂商适配层,屏蔽硬件差异|上层应用无感知切换GPU型号,一键迁移
显存超卖与OOM防护|引入CXL内存扩展层 + 智能Offload策略(LRU + 访问频率),实现三级存储(显存→CXL→NVMe)|KV Cache访问延迟 < 100ns,比传统方案提升6倍
调度策略的多目标优化|采用加权打分算法(成本权重0.6,性能权重0.4),结合历史数据动态调整权重|资源利用率从40%提升至87%(提升90%以上)
Serverless冷启动优化|预置模型池 + 模型热加载(SGLang技术)+ 模型分层加载|冷启动时间从分钟级降至秒级
推理延迟优化|集成vLLM的PagedAttention + 连续批处理(Continuous Batching)|TTFT(Time To First Token)时延降低30倍
成本优化|异构调度 + 国产卡优先 + 超卖 + Serverless|每百万Token成本降低57%,月均节省¥230万
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论