⚫ 拆解 vLLM 核心架构,掌握 PagedAttention、两阶段推理等 LLM 推理核
心技术,基于 nano-vllm 开展端到端性能优化。
⚫ 重构 CUDA Graph 实现逻辑,解决大 batch 场景适配缺陷,实现推理吞吐
量提升 11.3%,显存占用降低 29.2%。
点击空白处退出提示
⚫ 拆解 vLLM 核心架构,掌握 PagedAttention、两阶段推理等 LLM 推理核
心技术,基于 nano-vllm 开展端到端性能优化。
⚫ 重构 CUDA Graph 实现逻辑,解决大 batch 场景适配缺陷,实现推理吞吐
量提升 11.3%,显存占用降低 29.2%。




评论