文字检测天然涉及到图像和文本两种模态,VLPT通过设计三个图像特征和文本特征相互交互的预训练
任务,使得模型backboe具有了优秀的文字感知能力。该backboe参数可以作为大多数文字检测模型
的初始化参数,得到更好的训练效果。 本模型主要包含三个特征编码器,分别为图像特征编码器、文本特征编码器以及图文交互编码器。通过
三个图文交互预训练任务(图文对比、文本掩码建模和文本存在判断),图像特征编码器能有效区分文本与非文本区域,该特征编码器可以无缝替代主流文字检测模型的backboe部分,本文以DB检测方法为例。
VLPT模型介绍,详见:Visio-Laguage Pre-Traiig for Boostig Scee Text Detectors 。 本模型主要用于给输入图片输出图中文字外接框坐标,具体地,模型输出的框的坐标为文字框多边形的N个角点的坐标,分别为(x1,y1)(x2,y2)(x3,y3)…(x,y)。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。 在安装完成ModelScope之后即可使用ocr-detectio-vlpt的能力。 测试时的主要预处理和后处理如下: 本模型预训练数据为sythtext,训练集为80w张,后在totaltext上fietue,数据量为1255张。 本模型利用imageet预训练参数进行初始化,然后在预训练训练数据集上进行预训练训练,最后在相应数据集上进行fietue。 以下表格为totaltext数据集上的评测结果,baselie与我们的模型均未使用deformable cov。 如果我们的模型对您有帮助,请您引用我们的文章:
```BibTex
@iproceedigs{sog2022visio,
title={Visio-Laguage Pre-Traiig for Boostig Scee Text Detectors},
author={Sog, Sibo ad Wa, Jiaqiag ad Yag, Zhibo ad Tag, Ju ad Cheg, Weqig ad Bai, Xiag ad Yao, Cog},
booktitle={Proceedigs of the IEEE/CVF Coferece o Computer Visio ad Patter Recogitio},
pages={15681--15691},
year={2022}
}VLPT多模态文字检测预训练模型介绍
模型描述
期望模型使用方式以及适用范围
如何使用
预处理和后处理
环境准备
pytho3.8
pip istall 'umpy<=1.22.0' 'padas<1.4.0'
pytho3.10
pip istall -U 'umpy<1.24.0' 'padas<1.4.0'
代码范例
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
ocr_detectio = pipelie(Tasks.ocr_detectio, model='damo/cv_reset50_ocr-detectio-vlpt')
result = ocr_detectio('https://modelscope.oss-c-beijig.aliyucs.com/test/images/ocr_detectio_vlpt.jpg')
prit(result)
模型局限性以及可能的偏差
训练数据介绍
模型训练流程
数据评估及结果
模型
precisio
recall
fmeasure
DBwodcov
0.85
0.79
0.82
DBwodcov (VLPT)
0.88
0.82
0.85
相关论文以及引用信息
点击空白处退出提示










评论