各场景文本检测模型: 各场景文本识别模型: 整图OCR能力: 轻量化模型DEMO: 欢迎使用! 本模型是以自底向上的方式,先检测文本块和文字行之间的吸引排斥关系,然后对文本块聚类成行,最终输出文字行的外接框的坐标值。SegLik++模型介绍,详见:Seglik++: Detectig dese ad arbitrary-shaped scee text by istace-aware compoet groupig
本模型主要用于给输入图片输出图中文字外接框坐标,具体地,模型输出的框的坐标为文字框四边形的四个角点的坐标,左上角为第一个点,按照顺时针的顺序依次输出各个点的坐标,分别为(x1,y1)(x2,y2)(x3,y3)(x4,y4)。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。 在安装完成ModelScope之后即可使用ocr-detectio的能力。 测试时的主要预处理和后处理如下: 模型依赖tesorflow1.15.x运行,请使用镜像 模型在MTWI测试集上测试,结果如下 以下为模型的一些可视化文字检测效果,检测框用绿色框表示。
如果想体验完整的OCR能力,对整图中的文字进行检测识别,可以体验创空间应用。对于文字检测模型和文字识别模型的串联,可以参考说明文档。 本模型行检测模型训练数据集是MTWI/ReCTS/SROIE/LSVT,训练数据数量约53K。 本模型利用imageet预训练参数进行初始化,然后在训练数据集上进行训练,先利用512x512尺度训练100epoch,然后在768x768尺度下fietue训练50epoch。 本模型暂不支持自定义微调训练。若想用自定义数据进行微调训练,可以尝试DBNet-通用模型 如果我们的模型对您有帮助,请您引用我们的文章:
```BibTex
@article{tag2019seglik++,
title={Seglik++: Detectig dese ad arbitrary-shaped scee text by istace-aware compoet groupig},
author={Tag, Ju ad Yag, Zhibo ad Wag, Yogpa ad Zheg, Qi ad Xu, Yogchao ad Bai, Xiag},
joural={Patter recogitio},
volume={96},
pages={106954},
year={2019},
publisher={Elsevier}
}读光文字检测
News
传送门
模型描述
期望模型使用方式以及适用范围
如何使用
预处理和后处理
环境准备
registry.c-hagzhou.aliyucs.com/modelscope-repo/modelscope:ubutu20.04-cuda11.3.0-py37-torch1.11.0-tf1.15.5-1.6.1
registry.c-beijig.aliyucs.com/modelscope-repo/modelscope:ubutu20.04-cuda11.3.0-py37-torch1.11.0-tf1.15.5-1.6.1 代码范例
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
ocr_detectio = pipelie(Tasks.ocr_detectio, model='damo/cv_reset18_ocr-detectio-lie-level_damo')
result = ocr_detectio('https://modelscope.oss-c-beijig.aliyucs.com/test/images/ocr_detectio.jpg')
prit(result)
数据评估及结果
Backboe
Recall
Precisio
F-score
ResNet18
68.1
84.9
75.6
完整OCR能力体验
模型局限性以及可能的偏差
模型训练
训练数据介绍
模型训练流程
自定义微调训练
相关论文以及引用信息
点击空白处退出提示
评论