三年AI推理引擎与后台开发经验,目前职于头部AI芯片公司推理引擎团队。
专注于高性能计算与模型部署,擅长在延迟和吞吐之间寻找最优平衡点。持有985电子信息硕士证,可随时响应项目需求。
【核心技术栈】
- 编程语言:C++(精通)、Python(熟练)
- 推理框架:TensorRT、vLLM、YOLO
- 优化技术:算子开发、算子融合、INT8/FP8量化、CUDA编程
- 部署场景:云端高并发服务、边缘端(Jetson)实时推理
【可提供服务】
1. 模型推理加速:将PyTorch/ONNX模型通过TensorRT优化,典型成果是将YOLOv8从50ms降至5ms。
2. LLM服务部署:基于vLLM搭建高吞吐、低延迟的大模型推理服务,支持持续批处理(PagedAttention)。
3. 自定义算子开发:为TensorRT手写Plugin,支持FlashAttention、RoPE等复杂算子,或实现多算子融合。
4. C++推理服务封装:开发高性能gRPC/HTTP服务,集成请求动态Batching,提升GPU利用率。
5. 国产芯片适配:具备算子级迁移经验,助你将模型部署至昇腾、壁仞等国产NPU平台。
【项目案例】
- 项目A:接手一个Stable Diffusion服务,通过TensorRT优化+算子融合,端到端延迟从4.5s降至1.8s,吞吐提升2.5倍。
- 项目B:为某创业公司搭建vLLM服务,支持Llama 3 70B模型,单卡吞吐达3500 tokens/s,支撑其C端产品上线。
- 项目C:开发C++推理SDK,集成了模型热更新和请求优先级调度,已稳定运行于边缘设备超过6个月。
【合作模式】
承接:模型优化咨询、定制算子开发、完整推理服务部署、短期驻场支持。欢迎发送项目需求,24小时内必复。