开源地址
https://modelscope.cn/models/lacoboi/cncv_ocr_recognition授权协议
Apache License 2.0

文字识别模型介绍

文字识别，即给定一张文本图片，识别出图中所含文字并输出对应字符串。

本模型用于通用场景(不包含手写场景)的文字识别任务。

欢迎使用！

模型描述

本模型主要包括两个主要部分，统一卷积与自注意力机制的主干网络和Ehaced CTC loss（增加Ceter loss优化相似字符误识别问题），模型训练过程中，使用自蒸馏策略，识别模型结构如下图：

模型测试接结果

在公开中文数据集Bechmarkig-Chiese-Text-Recogitio上训练并测试，结果如下表所示：

Model	Scee	Web	Documet
SAR	62.5	54.3	93.8
TrasOCR	63.3	62.3	96.9
MaskOCR-base	73.9	74.8	99.3
OFA-OCR	82.9	81.7	99.1
CNCV-OCR	77.28	78.44	99.42

与 OFA-OCR 模型对比优势：

在保持精度较高的同时，推理速度快，显存占用少，模型实用性高，在A10机器上耗时(s)对比如下：

模型	batch 1	batch 16	batch 32	batch 64
OFA-OCR	0.2534	2.1695	4.052	out-memory
CNCV-OCR	0.021	0.0510	0.0982	0.2185

使用CTC解码，对长文本识别效果好；

期望模型使用方式以及适用范围

本模型主要用于给输入图片输出图中文字内容，具体地，模型输出内容以字符串形式输出。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。

注：输入图片应为包含文字的单行文本图片。其它如多行文本图片、非文本图片等可能没有返回结果，此时表示模型的识别结果为空。

#

模型可视化效果以下为模型的可视化文字识别效果。

TODO

模型局限性以及可能的偏差

模型是在中文数据集上训练的，在其他语言或其他场景的数据上有可能产生一定偏差，请用户自行评测后决定如何使用。
当前版本在pytho3.7的CPU环境和单GPU环境测试通过，其他环境下可用性待测试。

相关论文以及引用

@misc{li2022uiformer,
      title={UiFormer: Uifyig Covolutio ad Self-attetio for Visual Recogitio}, 
      author={Kuchag Li ad Yali Wag ad Juhao Zhag ad Peg Gao ad Guaglu Sog ad Yu Liu ad Hogsheg Li ad Yu Qiao},
      year={2022},
      eprit={2201.09450},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
@article{ShiBY17,
  author    = {Baoguag Shi ad
               Xiag Bai ad
               Cog Yao},
  title     = {A Ed-to-Ed Traiable Neural Network for Image-Based Sequece Recogitio
               ad Its Applicatio to Scee Text Recogitio},
  joural   = {{IEEE} Tras. Patter Aal. Mach. Itell.},
  volume    = {39},
  umber    = {11},
  pages     = {2298--2304},
  year      = {2017}
}
@article{che2021bechmarkig,
  title={Bechmarkig Chiese Text Recogitio: Datasets, Baselies, ad a Empirical Study},
  author={Che, Jigye ad Yu, Haiyag ad Ma, Jiaqi ad Gua, Mega ad Xu, Xixi ad Wag, Xiaocog ad Qu, Shaobo ad Li, Bi ad Xue, Xiagyag},
  joural={arXiv preprit arXiv:2112.15093},
  year={2021}
}

文字识别模型介绍文字识别，即给定一张文本图片，识别出图中所含文字并输出对应字符串。本模型用于通用场景(不包含手写场景)的文字识别任务。欢迎使用！模型描述本模型主要包括两个主要部分，统一卷积与

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

菜鸟视觉算法-文字识别-文本行识别模型-中英

技术信息

作品详情

文字识别模型介绍

模型描述

模型测试接结果

期望模型使用方式以及适用范围

#

模型局限性以及可能的偏差

相关论文以及引用

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐