1. 基于Transformer架构,复现GPT-2(124M参数)+FP8混合精度
2. 训练数据是HuggingFaceFW/fineweb-edu中的sample-10BT
3. GPU租用的是智星云,GeForce RTX 4090 (24G),系统Ubuntu,单机4卡
4. 开发工具VS Code
5. 相关版本如下:CUDA Version: 12.4, Driver Version: 550.127.05, torch 2.5.0, triton 3.1.0
点击空白处退出提示
评论