使用DPO数据(只使用中文部分训练,长对话偏好)
DPO-EN-ZH-20k
- 包含大量偏好对齐的问答对数据<好,差>,有助于进一步提升chat模型的对话质量,使其生成内容更加详细、适合人类偏好。
frameworks:
- Pytorch license: Apache License 2.0 tasks:
- text-generation
SDK下载
#安装ModelScope
pip install modelscope
#SDK模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('zhuangxialie/Llama3-Chinese-DPO')
Git下载
#Git模型下载
git clone https://www.modelscope.cn/zhuangxialie/Llama3-Chinese-DPO.git
评论