何书文15010729356-北京全栈-程序员客栈

1月前来过

D级

大模型算法工程师

北京

全职 · 1000/日 · 21750/月信用正常

工作时间: 工作日8:00-24:00、周末8:00-24:00工作地点: 远程

服务企业: 0家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

北京大学硕士，自研大模型https://github.com/shuwenhe/llm自研深度学习框架https://github.com/shuwenhe/tensor大模型算法研发，智能问数智能问答系统研发，智能红外热成像诊断平台研发。参与基于 Transformer 架构的大模型研发，负责核心模块设计与优化
搭建大规模预训练流程（自回归语言模型），优化 Attention 与 FFN 结构
设计并实现分布式训练方案DP/TP/PP，支持多 GPU 高效扩展
实现混合精度训练（FP16/BF16）与梯度优化策略，大大提升训练效率。
构建数据清洗与 Tokenization 流程，支撑亿级文本语料训练
参与 SFT/RLHF 对齐流程，提升模型指令理解能力。

2025-08-01 -至今北京昇腾创新人工智能有限公司大模型算法工程师
参与基于 Transformer 架构的大模型研发，负责核心模块设计与优化搭建大规模预训练流程（自回归语言模型），优化 Attention 与 FFN 结构设计并实现分布式训练方案DP/TP/PP，支持多 GPU 高效扩展实现混合精度训练（FP16/BF16）与梯度优化策略，大大提升训练效率。构建数据清洗与 Tokenization 流程，支撑亿级文本语料训练参与 SFT/RLHF 对齐流程，提升模型指令理解能力。

2012-09-01 - 2015-06-01北京大学计算机科学与技术硕士
北京大学科技一苑苑长，经常参加北京大学数学课题的研讨班。是北京大学数学系暑期学校全国选出40 名优秀中青年数学人才之一，参加伦敦国王学院、美国杜克大学、美国纽约大学、加拿大多伦多大学教授组成的学术研讨班，研究PDE(偏微分方程)，量子力学方面的数学课题的研究工作，并获优异成绩。

英语母语水平

Torch精通

作品

智能问答系统

参与基于Transformer架构的大模型研发，负责核心模块设计与优化搭建大规模预训练流程（自回归语言模型），优化Attention与FFN结构设计并实现分布式训练方案DP/TP/PP，支持多GPU高效扩展实现混合精度训练（FP16/BF16）与梯度优化策略，大大提升训练效率。构建数据清洗与Toke