Llama3中文微调

我要开发同款
匿名用户2024年07月31日
30阅读
所属分类ai、llama、Pytorch
开源地址https://modelscope.cn/models/zhuangxialie/Llama3_Chinese_Sft
授权协议Apache License 2.0

作品详情


中文微调数据集

附带Python脚本,可统一转为ShareGPT格式

firefly-train-1.1M

  • 包含了23种常见的中文NLP任务的数据,并且构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等。对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万。

CodeChat

  • 主要包含逻辑推理、代码问答、代码生成相关语料样本。

shareAIShareGPT-Chinese-English-90k

  • 中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。(包含大量多轮对话)

ruozhiba

  • 弱智吧数据问答,据说比较锻炼模型的心智能力。

整理好的ShareGPT文件(包含以上全部数据集)

  • https://modelscope.cn/datasets/zhuangxialie/Llama3-Chinese-Dataset/files

GitHub

  • https://github.com/CrazyBoyM/llama3-Chinese-chat

SDK下载

#安装ModelScope
pip install modelscope
#SDK模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('zhuangxialie/Llama3_Chinese_Sft')

Git下载

#Git模型下载
git clone https://www.modelscope.cn/zhuangxialie/Llama3_Chinese_Sft.git
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论