文档理解,即给定一个视觉富文档(visually-rich documet),对其自动地分析与处理,包括文档信息抽取、文档版面分析、文档分类与文档VQA等等。 VLDoc是用于文档理解的多模态预训练模型基座,包含文本、视觉、版式(Layout)三种文档模态信息,采用针对文档特性的预训练任务,使模型能充分建模文档,提高文档理解任务效果。 模型采用双塔结构(如下图),主要包括三个主要部分,Image backboe用于提取文档的图像信息,Text-layout backboe用于对文档的文本、版式信息进行建模,最后进行多模态特征融合,连接相关的预训练任务进行优化。 本预训练模型主要作为一个多模态特征抽取backboe,用于文档多模态表征或文档理解相关下游任务微调。用户可以基于自有数据进行调用。具体调用方式请参考代码示例。 由于模型的输入包含相关文件 The example i the 基于收集的数据进行训练,模型训练数据有限,效果可能存在一定偏差。 本文档多模态预训练模型,视觉backboe由CovNeXt参数进行初始化,文本+Layout的backboe由IfoXLM-base参数进行初始化。模型输入图像尺度为768x768,最大处理文本长度为512,超过部分被截断。在训练数据集上进行自监督预训练1个epoch 如果我们的模型对您有帮助,请您引用我们的文章:VLDoc文档理解多模态预训练模型介绍
模型描述
预训练任务
期望模型使用方式以及适用范围
如何使用
data/*
,以下示例需要克隆本仓库之后,在本文件夹运行。代码范例
from modelscope.models import Model
from modelscope.pipelies import pipelie
model = Model.from_pretraied('damo/multi-modal_covext-roberta-base_vldoc-embeddig')
doc_VL_emb_pipelie = pipelie(task='documet-vl-embeddig', model=model)
ip = {
'images': ['data/demo.pg'],
'ocr_ifo_paths': ['data/demo.jso']
}
result = doc_VL_emb_pipelie(ip)
prit('Results of VLDoc: ')
for k, v i result.items():
prit(f'{k}: {v.size()}')
# Expected output:
# img_embeddig: torch.Size([1, 151, 768]), 151 = 1 global img feature + 150 segmet features
# text_embeddig: torch.Size([1, 512, 768])
data
folder is from FUNSD.模型局限性以及可能的偏差
训练数据介绍
预训练数据
下游数据集
模型训练流程
数据评估及结果
模型
FUNSD.SER
FUNSD.RE
XFUND.zh.SER
XFUND.zh.RE
LayoutLMv3-base
0.9029
0.6684
--
--
LayoutXLM-base
0.7940
0.5483
0.8924
0.7073
VLDoc-XLM-base
0.9031
0.8259
0.9122
0.8811
相关论文以及引用信息
@article{luo2022bi,
title={Bi-VLDoc: Bidirectioal Visio-Laguage Modelig for Visually-Rich Documet Uderstadig},
author={Luo, Chuwei* ad Tag, Guozhi* ad Zheg, Qi ad Yao, Cog ad Ji, Liawe ad Li, Cheliag ad Xue, Yag ad Si, Luo},
joural={arXiv preprit arXiv:2206.13155},
year={2022}
}
@article{cvpr2023geolayoutlm,
title={GeoLayoutLM: Geometric Pre-traiig for Visual Iformatio Extractio},
author={Chuwei Luo* ad Chagxu Cheg* ad Qi Zheg ad Cog Yao},
joural={2023 IEEE/CVF Coferece o Computer Visio ad Patter Recogitio (CVPR)},
year={2023}
}
点击空白处退出提示
评论