个人介绍
搭建大规模预训练流程(自回归语言模型),优化 Attention 与 FFN 结构
设计并实现分布式训练方案DP/TP/PP,支持多 GPU 高效扩展
实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。
构建数据清洗与 Tokenization 流程,支撑亿级文本语料训练
参与 SFT/RLHF 对齐流程,提升模型指令理解能力。
工作经历
2025-08-01 -至今北京昇腾创新人工智能有限公司大模型算法工程师
参与基于 Transformer 架构的大模型研发,负责核心模块设计与优化 搭建大规模预训练流程(自回归语言模型),优化 Attention 与 FFN 结构 设计并实现分布式训练方案DP/TP/PP,支持多 GPU 高效扩展 实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。 构建数据清洗与 Tokenization 流程,支撑亿级文本语料训练 参与 SFT/RLHF 对齐流程,提升模型指令理解能力。
教育经历
2012-09-01 - 2015-06-01北京大学计算机科学与技术硕士
北京大学科技一苑苑长,经常参加北京大学数学课题的研讨班。是北京大学数学系暑期学校全国选出40 名优秀中青年数学人才之一,参加伦敦国王学院、美国杜克大学、美国纽约大学、加拿大多伦多大学教授组成的学术研讨班,研究PDE(偏微分方程),量子力学方面的数学课题的研究工作,并获优异成绩。
语言
技能

参与基于Transformer架构的大模型研发,负责核心模块设计与优化搭建大规模预训练流程(自回归语言模型),优化Attention与FFN结构设计并实现分布式训练方案DP/TP/PP,支持多GPU高效扩展实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。构建数据清洗与Toke

参与基于Transformer架构的大模型研发,负责核心模块设计与优化搭建大规模预训练流程(自回归语言模型),优化Attention与FFN结构设计并实现分布式训练方案DP/TP/PP,支持多GPU高效扩展实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。构建数据清洗与Toke






