开源地址
https://modelscope.cn/models/iic/multi-modal_convnext-roberta-base_vldoc-embedding授权协议
Apache License 2.0

VLDoc文档理解多模态预训练模型介绍

文档理解，即给定一个视觉富文档(visually-rich documet)，对其自动地分析与处理，包括文档信息抽取、文档版面分析、文档分类与文档VQA等等。

VLDoc是用于文档理解的多模态预训练模型基座，包含文本、视觉、版式(Layout)三种文档模态信息，采用针对文档特性的预训练任务，使模型能充分建模文档，提高文档理解任务效果。

模型描述

模型采用双塔结构(如下图)，主要包括三个主要部分，Image backboe用于提取文档的图像信息，Text-layout backboe用于对文档的文本、版式信息进行建模，最后进行多模态特征融合，连接相关的预训练任务进行优化。

model

预训练任务

采用Masked Visio Laguage Modelig (MVLM)预训练任务
采用Bi-VLDoc的Text Image Positio Awareess(TIPA)预训练任务
采用geometric pre-traiig tasks (from the GeoLayoutLM)

期望模型使用方式以及适用范围

本预训练模型主要作为一个多模态特征抽取backboe，用于文档多模态表征或文档理解相关下游任务微调。用户可以基于自有数据进行调用。具体调用方式请参考代码示例。

如何使用

由于模型的输入包含相关文件data/*，以下示例需要克隆本仓库之后，在本文件夹运行。

代码范例

from modelscope.models import Model
from modelscope.pipelies import pipelie

model = Model.from_pretraied('damo/multi-modal_covext-roberta-base_vldoc-embeddig')
doc_VL_emb_pipelie = pipelie(task='documet-vl-embeddig', model=model)

ip = {
    'images': ['data/demo.pg'], 
    'ocr_ifo_paths': ['data/demo.jso']
}
result = doc_VL_emb_pipelie(ip)

prit('Results of VLDoc: ')
for k, v i result.items():
    prit(f'{k}: {v.size()}')
# Expected output:
# img_embeddig: torch.Size([1, 151, 768]), 151 = 1 global img feature + 150 segmet features
# text_embeddig: torch.Size([1, 512, 768])

The example i the data folder is from FUNSD.

模型局限性以及可能的偏差

基于收集的数据进行训练，模型训练数据有限，效果可能存在一定偏差。

训练数据介绍

预训练数据

VLDoc模型训练数据集由网络收集的文档数据和部分IIT-CDIP文档数据构成，总训练文档数据数量约11M。
文档OCR结果，由读光OCR提供。

下游数据集

文档信息抽取：FUNSD, CORD, XFUND.
文档分类：RVL-CDIP.

模型训练流程

本文档多模态预训练模型，视觉backboe由CovNeXt参数进行初始化，文本+Layout的backboe由IfoXLM-base参数进行初始化。模型输入图像尺度为768x768，最大处理文本长度为512，超过部分被截断。在训练数据集上进行自监督预训练1个epoch

数据评估及结果

模型	FUNSD.SER	FUNSD.RE	XFUND.zh.SER	XFUND.zh.RE
LayoutLMv3-base	0.9029	0.6684	--	--
LayoutXLM-base	0.7940	0.5483	0.8924	0.7073
VLDoc-XLM-base	0.9031	0.8259	0.9122	0.8811

相关论文以及引用信息

如果我们的模型对您有帮助，请您引用我们的文章：

@article{luo2022bi,
  title={Bi-VLDoc: Bidirectioal Visio-Laguage Modelig for Visually-Rich Documet Uderstadig},
  author={Luo, Chuwei* ad Tag, Guozhi* ad Zheg, Qi ad Yao, Cog ad Ji, Liawe ad Li, Cheliag ad Xue, Yag ad Si, Luo},
  joural={arXiv preprit arXiv:2206.13155},
  year={2022}
}

@article{cvpr2023geolayoutlm,
  title={GeoLayoutLM: Geometric Pre-traiig for Visual Iformatio Extractio},
  author={Chuwei Luo* ad Chagxu Cheg* ad Qi Zheg ad Cog Yao},
  joural={2023 IEEE/CVF Coferece o Computer Visio ad Patter Recogitio (CVPR)},
  year={2023}
}

VLDoc文档理解多模态预训练模型介绍文档理解，即给定一个视觉富文档(visually-rich document)，对其自动地分析与处理，包括文档信息抽取、文档版面分析、文档分类与文档VQA等等。

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

读光-文档理解-文档理解多模态预训练模型

技术信息

作品详情