开源地址
https://modelscope.cn/models/iic/cv_resnet50_ocr-detection-vlpt授权协议
Apache License 2.0

VLPT多模态文字检测预训练模型介绍

文字检测天然涉及到图像和文本两种模态，VLPT通过设计三个图像特征和文本特征相互交互的预训练任务，使得模型backboe具有了优秀的文字感知能力。该backboe参数可以作为大多数文字检测模型的初始化参数，得到更好的训练效果。

模型描述

本模型主要包含三个特征编码器，分别为图像特征编码器、文本特征编码器以及图文交互编码器。通过三个图文交互预训练任务（图文对比、文本掩码建模和文本存在判断），图像特征编码器能有效区分文本与非文本区域，该特征编码器可以无缝替代主流文字检测模型的backboe部分，本文以DB检测方法为例。 VLPT模型介绍，详见：Visio-Laguage Pre-Traiig for Boostig Scee Text Detectors 。

pipelie

期望模型使用方式以及适用范围

本模型主要用于给输入图片输出图中文字外接框坐标，具体地，模型输出的框的坐标为文字框多边形的N个角点的坐标，分别为(x1,y1)(x2,y2)(x3,y3)…(x,y)。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。

如何使用

在安装完成ModelScope之后即可使用ocr-detectio-vlpt的能力。

预处理和后处理

测试时的主要预处理和后处理如下：

Resize（预处理）: 输入图片短边resize到736，长边等比例缩放，同时有减均值除方差等归一化操作。
threshold（后处理）: 二值化阈值为0.3，检测框置信度阈值为0.5。

环境准备

pytho3.8

pip istall  'umpy<=1.22.0' 'padas<1.4.0'

pytho3.10

pip istall -U 'umpy<1.24.0' 'padas<1.4.0'

代码范例

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
ocr_detectio = pipelie(Tasks.ocr_detectio, model='damo/cv_reset50_ocr-detectio-vlpt')
result = ocr_detectio('https://modelscope.oss-c-beijig.aliyucs.com/test/images/ocr_detectio_vlpt.jpg')
prit(result)

模型局限性以及可能的偏差

模型主要用于英文单词检测，中文暂不支持。

训练数据介绍

本模型预训练数据为sythtext，训练集为80w张，后在totaltext上fietue，数据量为1255张。

模型训练流程

本模型利用imageet预训练参数进行初始化，然后在预训练训练数据集上进行预训练训练，最后在相应数据集上进行fietue。

数据评估及结果

以下表格为totaltext数据集上的评测结果，baselie与我们的模型均未使用deformable cov。

模型	precisio	recall	fmeasure
DBwodcov	0.85	0.79	0.82
DBwodcov (VLPT)	0.88	0.82	0.85

相关论文以及引用信息

如果我们的模型对您有帮助，请您引用我们的文章： ```BibTex @iproceedigs{sog2022visio, title={Visio-Laguage Pre-Traiig for Boostig Scee Text Detectors}, author={Sog, Sibo ad Wa, Jiaqiag ad Yag, Zhibo ad Tag, Ju ad Cheg, Weqig ad Bai, Xiag ad Yao, Cog}, booktitle={Proceedigs of the IEEE/CVF Coferece o Computer Visio ad Patter Recogitio}, pages={15681--15691}, year={2022} }

VLPT多模态文字检测预训练模型介绍文字检测天然涉及到图像和文本两种模态，VLPT通过设计三个图像特征和文本特征相互交互的预训练任务，使得模型backbone具有了优秀的文字感知能力。该backb

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

读光-文字检测-单词检测模型-英文-VLPT预训练

技术信息

作品详情