proginn2030247803
2小时前在线
全职 · 2000/日  ·  43500/月
工作时间: 周末09:30-07:00工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

三年AI推理引擎与后台开发经验,目前职于头部AI芯片公司推理引擎团队。 专注于高性能计算与模型部署,擅长在延迟和吞吐之间寻找最优平衡点。持有985电子信息硕士证,可随时响应项目需求。 【核心技术栈】 - 编程语言:C++(精通)、Python(熟练) - 推理框架:TensorRT、vLLM、YOLO - 优化技术:算子开发、算子融合、INT8/FP8量化、CUDA编程 - 部署场景:云端高并发服务、边缘端(Jetson)实时推理 【可提供服务】 1. 模型推理加速:将PyTorch/ONNX模型通过TensorRT优化,典型成果是将YOLOv8从50ms降至5ms。 2. LLM服务部署:基于vLLM搭建高吞吐、低延迟的大模型推理服务,支持持续批处理(PagedAttention)。 3. 自定义算子开发:为TensorRT手写Plugin,支持FlashAttention、RoPE等复杂算子,或实现多算子融合。 4. C++推理服务封装:开发高性能gRPC/HTTP服务,集成请求动态Batching,提升GPU利用率。 5. 国产芯片适配:具备算子级迁移经验,助你将模型部署至昇腾、壁仞等国产NPU平台。 【项目案例】 - 项目A:接手一个Stable Diffusion服务,通过TensorRT优化+算子融合,端到端延迟从4.5s降至1.8s,吞吐提升2.5倍。 - 项目B:为某创业公司搭建vLLM服务,支持Llama 3 70B模型,单卡吞吐达3500 tokens/s,支撑其C端产品上线。 - 项目C:开发C++推理SDK,集成了模型热更新和请求优先级调度,已稳定运行于边缘设备超过6个月。 【合作模式】 承接:模型优化咨询、定制算子开发、完整推理服务部署、短期驻场支持。欢迎发送项目需求,24小时内必复。


工作经历

  • 2023-06-30 -至今壁仞科技大模型推理框架工程师

    提供国产芯片大模型部署加速服务:算子开发与融合、模型量化压缩、推理引擎适配。助你将LLM高效迁移至国产NPU平台,显著降低延迟、提升吞吐。

教育经历

  • 2020-09-10 - 2023-06-07天津大学电子信息硕士

语言

中文母语水平
英语可口语交流
0
1
2
3
4
5
0
1
2
3
4
5

技能

C++精通
Torch精通
0
1
2
3
4
5
0
1
2
3
4
5
更新于: 1小时前 浏览: 3