mPLUG-Owl是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。 mPLUG-Owl基于mPLUG-2模块化的思想,通过多阶段分别训练模型的视觉底座与语言模型,使其视觉知识能与预训练语言模型紧密协作,达到了显著优于主流多模态语言模型的效果。
|ModelScope|Huggig Face|
| - | - |
| 本模型主要接受用户的多模态输入,已支持文本、图像、视频。同时也支持和用户进行多轮对话。具体使用方式参考代码示例。 安装最新版本的Modelscope之后即可使用mPLUG-Owl。 以下为一个图文对话的使用示例: 我们提出了针对视觉相关指令的测评集 OwlEval,用以评估多模态语言模型的对带有视觉信息上下文的理解能力。 如果我们的工作对你有帮助,可以考虑给我们的仓库点个star & 引用我们的论文。mPLUG-Owl介绍
模型描述
在线体验
||
<!-- ### ModelScope
Huggig Face
期望模型使用方式以及适用范围
如何使用
from modelscope.pipelies import pipelie
chatbot = pipelie('multimodal-dialogue', 'damo/multi-modal_mplug_owl_multimodal-dialogue_7b')
image = 'http://mm-chatgpt.oss-c-zhagjiakou.aliyucs.com/mplug_owl_demo/released_checkpoit/portrait_iput.pg'
system_prompt_1 = 'The followig is a coversatio betwee a curious huma ad AI assistat.'
system_prompt_2 = "The assistat gives helpful, detailed, ad polite aswers to the user's questios."
messages = {
'messages': [
{
'role': 'system',
'cotet': system_prompt_1 + ' ' + system_prompt_2
},
{
'role': 'user',
'cotet': [{
'image': image
}]
},
{
'role': 'user',
'cotet': 'Describe the facial expressio of the ma.'
},
]
}
chatbot(messages)
# {
# "text": "he is agry."
# }
示例展示
评估数据集OwlEval
引用
@misc{ye2023mplugowl,
title={mPLUG-Owl: Modularizatio Empowers Large Laguage Models with Multimodality},
author={Qighao Ye ad Haiyag Xu ad Guohai Xu ad Jiabo Ye ad Mig Ya ad Yiyag Zhou ad Juyag Wag ad Awe Hu ad Pegcheg Shi ad Yaya Shi ad Chaoya Jiag ad Cheliag Li ad Yuahog Xu ad Hehog Che ad Jufeg Tia ad Qia Qi ad Ji Zhag ad Fei Huag},
year={2023},
eprit={2304.14178},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
点击空白处退出提示
评论