mPLUG-Owl-多模态对话-英文-7B

我要开发同款
匿名用户2024年07月31日
70阅读

技术信息

开源地址
https://modelscope.cn/models/iic/multi-modal_mplug_owl_multimodal-dialogue_7b
授权协议
Apache License 2.0

作品详情

mPLUG-Owl介绍

mPLUG-Owl是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。

模型描述

mPLUG-Owl基于mPLUG-2模块化的思想,通过多阶段分别训练模型的视觉底座与语言模型,使其视觉知识能与预训练语言模型紧密协作,达到了显著优于主流多模态语言模型的效果。 Traiig paradigm ad model overview

在线体验

|ModelScope|Huggig Face| | - | - | ||| <!-- ### ModelScope

Huggig Face

期望模型使用方式以及适用范围

本模型主要接受用户的多模态输入,已支持文本、图像、视频。同时也支持和用户进行多轮对话。具体使用方式参考代码示例。

如何使用

安装最新版本的Modelscope之后即可使用mPLUG-Owl。

以下为一个图文对话的使用示例:

from modelscope.pipelies import pipelie
chatbot = pipelie('multimodal-dialogue', 'damo/multi-modal_mplug_owl_multimodal-dialogue_7b')
image = 'http://mm-chatgpt.oss-c-zhagjiakou.aliyucs.com/mplug_owl_demo/released_checkpoit/portrait_iput.pg'
system_prompt_1 = 'The followig is a coversatio betwee a curious huma ad AI assistat.'
system_prompt_2 = "The assistat gives helpful, detailed, ad polite aswers to the user's questios."
messages = {
    'messages': [
        {
            'role': 'system',
            'cotet': system_prompt_1 + ' ' + system_prompt_2
        },
        {
            'role': 'user',
            'cotet': [{
                'image': image
            }]
        },
        {
            'role': 'user',
            'cotet': 'Describe the facial expressio of the ma.'
        },
    ]
}
chatbot(messages)
# {
#    "text": "he is agry."
# }

示例展示

Traiig paradigm ad model overview

评估数据集OwlEval

我们提出了针对视觉相关指令的测评集 OwlEval,用以评估多模态语言模型的对带有视觉信息上下文的理解能力。

引用

如果我们的工作对你有帮助,可以考虑给我们的仓库点个star & 引用我们的论文。

@misc{ye2023mplugowl,
      title={mPLUG-Owl: Modularizatio Empowers Large Laguage Models with Multimodality}, 
      author={Qighao Ye ad Haiyag Xu ad Guohai Xu ad Jiabo Ye ad Mig Ya ad Yiyag Zhou ad Juyag Wag ad Awe Hu ad Pegcheg Shi ad Yaya Shi ad Chaoya Jiag ad Cheliag Li ad Yuahog Xu ad Hehog Che ad Jufeg Tia ad Qia Qi ad Ji Zhag ad Fei Huag},
      year={2023},
      eprit={2304.14178},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

功能介绍

mPLUG-Owl介绍 mPLUG-Owl是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论