LLaVA 端到端训练的大型多模态模型

开源地址
https://gitee.com/mirrors/llava授权协议
Apache-2.0

LLaVA是一个面向多模态GPT-4级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型，连接视觉编码器和LLM以实现通用视觉和语言理解。

Demo

早期实验表明，LLaVA展示了优秀的多模型聊天能力，有时在看不见的图像/指令上表现出多模型GPT-4的行为，与GPT-4相比，在合成的多模态指令跟随数据集中产生了85.1%的相对得分。当在ScieceQA上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的新的最先进的准确率。LLaVA 团队公开了 GPT-4生成的视觉指令调整数据、以及其模型和代码库。

更多详情可查看论文。

使用和许可声明：数据、代码和checkpoi 仅供研究使用并获得许可。它们也仅限于遵循LLaMA、Vicua和GPT-4许可协议的用途。该数据集是CCBYNC4.0（仅允许非商业用途），使用该数据集训练的模型不应用于研究目的之外。

相关内容：DataDowloadIstallLLaVAWeightsServigEvaluatioFie-tuigDataDowloadDatafileameSizecoversatio_58k.jso126MBdetail_23k.jso20.5MBcomplex_reasoig_77k.jso79.6MB要下载语言图像多模态指令遵循数据集LLaVA-Istruct-150K，可运行以下脚本：

shdowload_data.shLLaVAWeights开发团队发布了 LLaVA weights作为deltaweights 以符合LLaMA模型许可。用户可以将其delta 添加到原始LLaMA weights 以获得LLaVAweights。说明：

按照此处的说明获取huggigface格式的原始LLaMAweights。使用以下脚本通过应用该delta 来获取LLaVAweights。它会自动从 LLaVA的 HuggigFace帐户下载deltaweights。LLaVA-13B

此转换命令需要大约60GB的CPURAM。

pytho3-mllava.model.apply_delta\--base/path/to/llama-13b\--target/output/path/to/LLaVA-13B-v0\--deltaliuhaotia/LLaVA-13b-delta-v0LLaVA-7B

即将推出。

LLaVA 是一个面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。 Demo 早期实验表明，L...

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

LLaVA 端到端训练的大型多模态模型开源项目

技术信息

作品详情

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐