本项目面向大模型研发团队,解决 RLHF 训练缺少标准化离线偏好数据集的痛点。行业场景为 LLM RL Scaling 数据生产,企业需要批量对比多款开源 7B 模型输出质量,产出 0/1/2 分级标注数据用于奖励模型微调,传统人工单条跑模型效率极低,本流水线实现全流程自动化评测。
点击空白处退出提示
本项目面向大模型研发团队,解决 RLHF 训练缺少标准化离线偏好数据集的痛点。行业场景为 LLM RL Scaling 数据生产,企业需要批量对比多款开源 7B 模型输出质量,产出 0/1/2 分级标注数据用于奖励模型微调,传统人工单条跑模型效率极低,本流水线实现全流程自动化评测。
Docker Compose 封装 GPU 推理环境,支持 Windows WSL2 显卡直通,一键完成 CUDA、模型依赖部署;
基于 PyTorch 实现 5 款量化大模型串行批量推理,内置显存自动回收逻辑,;
导入自定义 Prompt 集合自动生成全部模型回答,导出可编辑 Excel 打分表;
标准化 0/1/2 人工打分、双层质检,一键转换 RLHF 训练专用 JSONL 数据集;
自动统计各模型平均分、分数分布,生成评测报告,全套文件打包交付客户。
基于 Python 开发,依托 PyTorch 实现大模型 4bit 量化推理,使用 Transformers、vLLM 加速生成,Pandas 完成数据清洗、格式转换与得分统计;Docker 封装可复现运行环境,完成整套 RL 评测流程。



评论