个人介绍
作为深耕大模型与智能体领域的资深 AI 技术专家,我具备大模型全链路开发、智能体底层架构搭建、多平台高效推理部署的端到端技术能力,能够打通从模型研发到业务落地的核心链路,为 AI 产品的商业化落地提供坚实技术支撑。
大模型训练:全流程把控,兼顾性能与效率
精通大模型训练全生命周期技术,涵盖高质量数据工程、分布式训练架构搭建、训练过程优化三大核心环节。在数据层面,可独立完成数据清洗、去噪、标注与增强,构建符合领域需求的高质量训练数据集,解决数据稀疏、分布不均等问题;在训练架构层面,熟练运用 PyTorch、DeepSpeed、Megatron-LM 等主流框架,搭建多机多卡分布式训练环境,支持万亿级参数模型的高效训练;在训练优化层面,掌握混合精度训练、梯度累积、显存优化等关键技术,能够有效降低训练成本、提升收敛速度。曾主导训练某垂直领域大模型,通过优化训练策略,将模型收敛时间缩短 30%,在特定任务上的准确率提升 25%。
大模型微调:精细化适配,赋能垂直场景
具备丰富的大模型微调实战经验,可根据不同业务场景与资源条件,灵活选择全参数微调、LoRA/QLoRA 轻量化微调、Prompt Tuning等技术方案。针对低资源场景,擅长基于小样本数据完成模型的领域适配,快速让通用大模型具备行业专业能力;掌握 RLHF(基于人类反馈的强化学习)对齐技术,能够优化模型的输出效果,使其更贴合人类意图与业务规范。曾为医疗、金融等领域客户完成大模型微调,让通用模型在专业问答、报告生成等任务上的表现达到行业领先水平。
智能体底层底座搭建:架构设计与核心能力构建
精通智能体(Agent)底层底座的架构设计与开发,能够搭建高扩展性、高兼容性的智能体技术底座。核心能力包括:设计智能体的核心逻辑架构,涵盖任务规划、记忆机制、工具调用、多模态融合等关键模块;开发底座核心组件,如知识库管理系统、意图识别引擎、插件化工具集成框架,支持智能体与外部系统的无缝对接;构建底座的标准化接口,支持多类大模型的灵活接入与切换,满足不同场景下的模型需求。曾主导搭建企业级智能体底层底座,支撑客服、办公、工业质检等多场景智能体应用的快速开发与部署。
多平台推理:跨硬件 / 系统高效部署,兼顾速度与兼容性
拥有扎实的大模型多平台推理部署经验,能够实现模型在云端、本地服务器、边缘设备等多环境的高效落地。
工作经历
2013-02-07 -2022-02-28百度AI大模型负责人
作为深耕大模型与智能体领域的资深 AI 技术专家,我具备大模型全链路开发、智能体底层架构搭建、多平台高效推理部署的端到端技术能力,能够打通从模型研发到业务落地的核心链路,为 AI 产品的商业化落地提供坚实技术支撑。 大模型训练:全流程把控,兼顾性能与效率 精通大模型训练全生命周期技术,涵盖高质量数据工程、分布式训练架构搭建、训练过程优化三大核心环节。在数据层面,可独立完成数据清洗、去噪、标注与增强,构建符合领域需求的高质量训练数据集,解决数据稀疏、分布不均等问题;在训练架构层面,熟练运用 PyTorch、DeepSpeed、Megatron-LM 等主流框架,搭建多机多卡分布式训练环境,支持万亿级参数模型的高效训练;在训练优化层面,掌握混合精度训练、梯度累积、显存优化等关键技术,能够有效降低训练成本、提升收敛速度。曾主导训练某垂直领域大模型,通过优化训练策略,将模型收敛时间缩短 30%,在特定任务上的准确率提升 25%。 大模型微调:精细化适配,赋能垂直场景 具备丰富的大模型微调实战经验,可根据不同业务场景与资源条件,灵活选择全参数微调、LoRA/QLoRA 轻量化微调、Prompt
2007-02-07 -2013-02-07金蝶软件算法总监
APS 核心模块开发与算法优化 基于金蝶 BOS 平台与 C#/.NET 框架,开发资源建模与工艺关联模块,支持设备、人员、模具等生产资源的属性定义(产能、日历、约束规则),实现工艺路线与资源模型的动态绑定,适配离散制造企业的复杂生产流程。 优化有限产能排程算法,集成订单优先级、资源负荷均衡化、批量合并等核心规则,开发紧急插单重排、超交期预警功能,通过调整排程逻辑将订单拆分率降低 40%,资源利用率提升 35%。 定制可视化甘特图组件,支持生产任务时间轴拖拽调整、资源负荷实时展示,开发关键物料需求表与排程结果导出功能,满足计划员高效操作需求。
教育经历
2003-08-07 - 2007-02-07山东大学计算机本科
偏重机器学习







