proginn2030247803人工智能-程序员客栈

1月前来过

大模型推理框架工程师

上海

全职 · 2000/日 · 43500/月信用正常

工作时间: 周末09:30-07:00工作地点: 远程

服务企业: 0家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

三年AI推理引擎与后台开发经验，目前职于头部AI芯片公司推理引擎团队。专注于高性能计算与模型部署，擅长在延迟和吞吐之间寻找最优平衡点。持有985电子信息硕士证，可随时响应项目需求。【核心技术栈】 - 编程语言：C++（精通）、Python（熟练） - 推理框架：TensorRT、vLLM、YOLO - 优化技术：算子开发、算子融合、INT8/FP8量化、CUDA编程 - 部署场景：云端高并发服务、边缘端（Jetson）实时推理【可提供服务】 1. 模型推理加速：将PyTorch/ONNX模型通过TensorRT优化，典型成果是将YOLOv8从50ms降至5ms。 2. LLM服务部署：基于vLLM搭建高吞吐、低延迟的大模型推理服务，支持持续批处理(PagedAttention)。 3. 自定义算子开发：为TensorRT手写Plugin，支持FlashAttention、RoPE等复杂算子，或实现多算子融合。 4. C++推理服务封装：开发高性能gRPC/HTTP服务，集成请求动态Batching，提升GPU利用率。 5. 国产芯片适配：具备算子级迁移经验，助你将模型部署至昇腾、壁仞等国产NPU平台。【项目案例】 - 项目A：接手一个Stable Diffusion服务，通过TensorRT优化+算子融合，端到端延迟从4.5s降至1.8s，吞吐提升2.5倍。 - 项目B：为某创业公司搭建vLLM服务，支持Llama 3 70B模型，单卡吞吐达3500 tokens/s，支撑其C端产品上线。 - 项目C：开发C++推理SDK，集成了模型热更新和请求优先级调度，已稳定运行于边缘设备超过6个月。【合作模式】承接：模型优化咨询、定制算子开发、完整推理服务部署、短期驻场支持。欢迎发送项目需求，24小时内必复。

2023-06-30 -至今壁仞科技大模型推理框架工程师
提供国产芯片大模型部署加速服务：算子开发与融合、模型量化压缩、推理引擎适配。助你将LLM高效迁移至国产NPU平台，显著降低延迟、提升吞吐。

2020-09-10 - 2023-06-07天津大学电子信息硕士已认证

中文母语水平

英语可口语交流

C++精通

Torch精通

更新于: 05-18 浏览: 44

个人介绍

工作经历

教育经历

语言

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐