微信用户0026439356
9小时前在线
全职 · 1000/日  ·  21750/月
工作时间: 工作日8:00-24:00、周末8:00-24:00工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

北京大学硕士,自研大模型https://github.com/shuwenhe/llm自研深度学习框架https://github.com/shuwenhe/tensor大模型算法研发,智能问数智能问答系统研发,智能红外热成像诊断平台研发。参与基于 Transformer 架构的大模型研发,负责核心模块设计与优化
搭建大规模预训练流程(自回归语言模型),优化 Attention 与 FFN 结构
设计并实现分布式训练方案DP/TP/PP,支持多 GPU 高效扩展
实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。
构建数据清洗与 Tokenization 流程,支撑亿级文本语料训练
参与 SFT/RLHF 对齐流程,提升模型指令理解能力。

工作经历

  • 2025-08-01 -至今北京昇腾创新人工智能有限公司大模型算法工程师

    参与基于 Transformer 架构的大模型研发,负责核心模块设计与优化 搭建大规模预训练流程(自回归语言模型),优化 Attention 与 FFN 结构 设计并实现分布式训练方案DP/TP/PP,支持多 GPU 高效扩展 实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。 构建数据清洗与 Tokenization 流程,支撑亿级文本语料训练 参与 SFT/RLHF 对齐流程,提升模型指令理解能力。

教育经历

  • 2012-09-01 - 2015-06-01北京大学计算机科学与技术硕士

    北京大学科技一苑苑长,经常参加北京大学数学课题的研讨班。是北京大学数学系暑期学校全国选出40 名优秀中青年数学人才之一,参加伦敦国王学院、美国杜克大学、美国纽约大学、加拿大多伦多大学教授组成的学术研讨班,研究PDE(偏微分方程),量子力学方面的数学课题的研究工作,并获优异成绩。

语言

英语母语水平
0
1
2
3
4
5

技能

Torch精通
0
1
2
3
4
5
作品
智能问答系统

参与基于Transformer架构的大模型研发,负责核心模块设计与优化搭建大规模预训练流程(自回归语言模型),优化Attention与FFN结构设计并实现分布式训练方案DP/TP/PP,支持多GPU高效扩展实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。构建数据清洗与Toke

0
2026-03-14 01:00
深度学习框架

参与基于Transformer架构的大模型研发,负责核心模块设计与优化搭建大规模预训练流程(自回归语言模型),优化Attention与FFN结构设计并实现分布式训练方案DP/TP/PP,支持多GPU高效扩展实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。构建数据清洗与Toke

0
2026-03-14 00:58
自研大模型

参与基于Transformer架构的大模型研发,负责核心模块设计与优化搭建大规模预训练流程(自回归语言模型),优化Attention与FFN结构设计并实现分布式训练方案DP/TP/PP,支持多GPU高效扩展实现混合精度训练(FP16/BF16)与梯度优化策略,大大提升训练效率。构建数据清洗与Toke

0
2026-03-14 00:57
更新于: 19小时前 浏览: 5