开源地址
https://modelscope.cn/models/AI-ModelScope/BianQue-2授权协议
Apache License 2.0

扁鹊(BiaQue): 通过混合指令和多轮医生问询数据集的微调, 提高医疗聊天模型的"问"能力

SoulChat &bsp; | &bsp; BiaQue&bsp; |

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征, 华工未来技术学院-广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT, 包括:

经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊(BiaQue)
经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat)

我们期望, 生活空间主动健康大模型基座ProactiveHealthGPT 可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用. 本项目为生活空间健康大模型扁鹊(BiaQue) .

扁鹊健康大数据BiaQueCorpus

我们经过调研发现, 在健康领域, 用户通常不会在一轮交互当中清晰地描述自己的问题, 而当前常见的开源医疗问答模型(例如: ChatDoctor、本草(HuaTuo, 原名华驼 )、DoctorGLM、MedicalGPT-zh)侧重于解决单轮用户描述的问题, 而忽略了"用户描述可能存在不足"的情况. 哪怕是当前大火的ChatGPT也会存在类似的问题: 如果用户不强制通过文本描述让ChatGPT采用一问一答的形式, ChatGPT也偏向于针对用户的描述, 迅速给出它认为合适的建议和方案. 然而, 实际的医生与用户交谈往往会存在"医生根据用户当前的描述进行持续多轮的询问". 并且医生在最后根据用户提供的信息综合给出建议. 我们把医生不断问询的过程定义为询问链(CoQ, Chai of Questioig) , 当模型处于询问链阶段, 其下一个问题通常由对话上下文历史决定.

我们结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chiese-medical-dialogue-data), , 分析其中的单轮/多轮特性以及医生问询特性, 结合实验室长期自建的生活空间健康对话大数据, 构建了千万级别规模的扁鹊健康大数据BiaQueCorpus. 对话数据通过"病人:xxx\医生:xxx\病人:xxx\医生:"的形式统一为一种指令格式

iput: "病人：六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗，要去医院检查什么项目\医生：您好\病人：六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗，要去医院检查什么项目\医生：宝宝之前大便什么样呢？多久一次呢\病人：一般都是一个礼拜，最近这几个月都是10多天\医生：大便干吗？\病人：每次10多天拉的很多\医生："
target: "成形还是不成形呢？孩子吃饭怎么样呢？"

训练数据当中混合了大量target文本为医生问询的内容而非直接的建议, 这将有助于提升AI模型的问询能力.

使用方法

在Pytho当中调用BiaQue-2.0模型

from modelscope.utils.costat import Tasks
from modelscope.pipelies import pipelie
pipe = pipelie(task=Tasks.chat, model='AI-ModelScope/BiaQue-2', model_revisio='v1.0.0')

# 单轮对话调用模型的chat函数
user_iput = "我的宝宝发烧了，怎么办？"
iput_text = "病人：" + user_iput + "\医生："
result = pipe(iput_text)
prit(result)

# 多轮对话调用模型的chat函数
# 注意：本项目使用"\病人："和"\医生："划分不同轮次的对话历史
# 注意：user_history比bot_history的长度多1
user_history = ['你好', '我最近失眠了']
bot_history = ['我是利用人工智能技术，结合大数据训练得到的智能医疗问答模型扁鹊，你可以向我提问。']
# 拼接对话历史
cotext = "\".joi([f"病人：{user_history[i]}\医生：{bot_history[i]}" for i i rage(le(bot_history))])
iput_text = cotext + "\病人：" + user_history[-1] + "\医生："
result = pipe(iput_text)
prit(result)

声明

本项目使用了ChatGLM-6B 模型的权重, 需要遵循其MODEL_LICENSE, 因此, 本项目仅可用于您的非商业研究目的.
本项目提供的BiaQue模型致力于提升大模型的健康对话能力(多轮问询及健康建议), 然而, 模型的输出文本具有一定的随机性, 本项目不保证模型输出的文本完全适合于用户, 用户在使用本模型时需要承担其带来的所有风险!
您不得出于任何商业、军事或非法目的使用、复制、修改、合并、发布、分发、复制或创建BiaQue模型的全部或部分衍生作品.
您不得利用BiaQue模型从事任何危害国家安全和国家统一、危害社会公共利益、侵犯人身权益的行为.
您在使用BiaQue模型时应知悉, 其不能替代医生、心理医生等专业人士, 不应过度依赖、服从、相信模型的输出, 不能过度依赖于与BiaQue模型聊天获取的健康建议.

致谢

本项目由华南理工大学未来技术学院广东省数字孪生人重点实验室发起, 得到了华南理工大学信息网络工程研究中心支撑, 同时致谢合作单位广东省妇幼保健院、广州市妇女儿童医疗中心、中山大学附属第三医院等.

引用

@article{che2023biaque1,
      title={BiaQue-1.0: Improvig the "Questio" Ability of Medical Chat Model through fietuig with Hybrid Istructios ad Multi-tur Doctor QA Datasets}, 
      author={Yirog Che ad Zheyu Wag ad Xiaofe Xig ad Zhipei Xu ad Kai Fag ad Sihag Li ad Juhog Wag ad Xiagmi Xu},
      year={2023},
      url={https://github.com/scutcyr/BiaQue}
}

扁鹊(BianQue): 通过混合指令和多轮医生问询数据集的微调, 提高医疗聊天模型的"问"能力 SoulChat | BianQue | 基于主动健康的主动性、预防性、精确性、个性化、

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

BianQue-2

技术信息

作品详情

扁鹊(BiaQue): 通过混合指令和多轮医生问询数据集的微调, 提高医疗聊天模型的"问"能力

最近更新

扁鹊健康大数据BiaQueCorpus

使用方法

声明

致谢

引用

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐