训练垂类模型（中文医疗模型）_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

训练中文医疗垂类模型前景广阔，是当前AI竞争的战略制高点。背景方面，2026年全球科技巨头纷纷重注医疗赛道，国内百川智能、阿里等厂商已实现技术突破，部分基准测试超越国际水平。行业前景体现在精准诊疗、药物研发、健康管理五大场景的深度渗透，正从概念转向临床工作流落地

功能介绍

可以使用自己的垂类数据，或者中文医疗数据，针对Qwen2.5-7B或者Qwen3.5-0.8B模型使用UnSloth进行训练，训练过程中的数据清理，数据质量评估，格式转换，BLEU效果评估，并对训练结果进行测试。模型微调逐步迭代后在该垂类领域能给出更专业的医疗建议。

项目实现

Step 1: 数据收集与清洗(medical_data_processor.py)
• 从6个科室的CSV文件收集原始数据，应用多维度清洗规则
• 清洗规则:
1. 自动检测文件编码(utf-8/gbk/gb2312/gb18030)
2. 空值过滤: 问题或回答为空的条目
3. 长度过滤: 问题500字、回答2000字
4. 无意义过滤: 纯标点、你好/嗯/哦等无意义问题
5. MD5去重: 基于问题内容的哈希去重
6. 均衡采样: 按科室均衡抽样(每科室200条)，留出5%验证集

Step 2: 数据质量评估(data_quality_report.py)
• 对原始数据和清洗后数据分别生成质量报告，量化对比清洗效果
• 评估维度(满分100):
- 格式合规(20分): 是否符合Alpaca/Chat格式规范
- 字段完整(20分): instruction/input/output 字段是否齐全
- 语言一致(15分): 是否全为中文
- 数据唯一(15分): 重复率
- 长度合理(15分): 问答长度是否在合理范围
- 多样性(15分): 科室分布是否均衡

Step 3: 数据格式转换(data_format_converter.py)
• Alpaca / Chat / UnslothSFT 三种格式的区别与转换

Step 4: 模型微调
使用清洗后的医疗数据对Qwen3.5-0.8B 进行LoRASFT 微调

Step 5: BLEU效果评估(bleu_evaluation.py)
•使用BLEU分数量化评估微调前后的