中文微调数据集
附带Python脚本,可统一转为ShareGPT格式
firefly-train-1.1M
- 包含了23种常见的中文NLP任务的数据,并且构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等。对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万。
CodeChat
- 主要包含逻辑推理、代码问答、代码生成相关语料样本。
shareAIShareGPT-Chinese-English-90k
- 中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。(包含大量多轮对话)
ruozhiba
- 弱智吧数据问答,据说比较锻炼模型的心智能力。
整理好的ShareGPT文件(包含以上全部数据集)
- https://modelscope.cn/datasets/zhuangxialie/Llama3-Chinese-Dataset/files
GitHub
- https://github.com/CrazyBoyM/llama3-Chinese-chat
SDK下载
#安装ModelScope
pip install modelscope
#SDK模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('zhuangxialie/Llama3_Chinese_Sft')
Git下载
#Git模型下载
git clone https://www.modelscope.cn/zhuangxialie/Llama3_Chinese_Sft.git
评论