开源地址
https://modelscope.cn/models/iic/cv_LightweightEdge_ocr-recognitoin-general_damo授权协议
Apache License 2.0

读光文字识别

News

2023年6月：
- 新增轻量化端侧识别LightweightEdge-通用场景模型和轻量化端侧行检测模型。
2023年4月：
- 新增训练/微调时读取本地数据集的lmdb，用训练/微调后的模型继续识别，详见代码示例。
2023年3月：
- 新增训练/微调流程，支持自定义参数及数据集，详见代码示例。
2023年2月：
- 新增业界主流CRNN-通用场景模型。

传送门

本模型Github项目（内含推理demo）

各场景文本识别模型：

CovNextViT-通用场景
CovNextViT-手写场景
CovNextViT-自然场景
CovNextViT-车牌场景
CovNextViT-文档印刷场景
CRNN-通用场景

各场景文本检测模型：

SegLik++-通用场景行检测
SegLik++-通用场景单词检测
DBNet-通用场景行检测

整图OCR能力：

整图OCR-多场景

欢迎使用！

模型描述

文字识别，即给定一张文本图片，识别出图中所含文字并输出对应字符串。
本模型基于CNN+CTC的框架，其中CNN特征编码部分采用的是ProxyLessNAS搜索出来的轻量化Backboe。在约束模型大小8M以内的条件下，ProxyLessNAS在MixBlock、RepMBV2等混合搜索空间中搜索出精度最优的CNN架构组合。模型结构如下图：

期望模型使用方式以及适用范围

本模型主要用于给输入图片输出图中文字内容，具体地，模型输出内容以字符串形式输出。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。

注：输入图片应为包含文字的单行文本图片。其它如多行文本图片、非文本图片等可能没有返回结果，此时表示模型的识别结果为空。

模型推理

在安装完成ModelScope之后即可使用ocr-recogitio的能力。(在otebook的CPU环境或GPU环境均可使用)

使用图像的url，或准备图像文件上传至otebook（可拖拽）。
输入下列代码。

代码范例

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
import cv2

### 本模型预计6月15日左右，modelscope==1.7.0上线后可用
ocr_recogitio = pipelie(Tasks.ocr_recogitio, model='damo/cv_LightweightEdge_ocr-recogitoi-geeral_damo', model_revisio='v2.4.1')

### 使用url
img_url = 'http://duguag-labellig.oss-c-shaghai.aliyucs.com/mass_img_tmp_20220922/ocr_recogitio.jpg'
result = ocr_recogitio(img_url)
prit(result)

### 使用图像文件
### 请准备好名为'ocr_recogitio.jpg'的图像文件
# img_path = 'ocr_recogitio.jpg'
# img = cv2.imread(img_path)
# result = ocr_recogitio(img)
# prit(result)

模型可视化效果

以下为模型的可视化文字识别效果。

ios demo效果

以下为模型在ios系统上部署后的可视化文字识别效果。

模型局限性以及可能的偏差

模型是在中英文数据集上训练的，在其他语言的数据上有可能产生一定偏差，请用户自行评测后决定如何使用。
当前版本在pytho3.7的CPU环境和单GPU环境测试通过，其他环境下可用性待测试。

模型微调/训练

训练数据及流程介绍

本文字识别模型训练数据集是MTWI以及部分收集数据，训练数据数量约6M。
本模型参数随机初始化，然后在训练数据集上进行训练，在32x640尺度下训练20个epoch。

模型微调/训练示例

训练数据集准备

示例采用ICDAR13手写数据集，已制作成lmdb，数据格式如下

'um-samples': umber,
'image-000000001': imagedata,
'label-000000001': strig,
...

详情可下载解析了解。

配置训练参数并进行微调/训练

参考代码及详细说明如下

import os
import tempfile

from modelscope.hub.sapshot_dowload import sapshot_dowload
from modelscope.metaifo import Traiers
from modelscope.msdatasets import MsDataset
from modelscope.traiers import build_traier
from modelscope.utils.cofig import Cofig, CofigDict
from modelscope.utils.costat import ModelFile, DowloadMode

### 请确认您当前的modelscope版本，训练/微调流程在modelscope==1.4.0及以上版本中 

model_id = 'damo/cv_LightweightEdge_ocr-recogitoi-geeral_damo'
cache_path = sapshot_dowload(model_id) # 模型下载保存目录
cofig_path = os.path.joi(cache_path, ModelFile.CONFIGURATION) # 模型参数配置文件，支持自定义
cfg = Cofig.from_file(cofig_path)

# 构建数据集，支持自定义
trai_data_cfg = CofigDict(
    ame='ICDAR13_HCTR_Dataset', 
    split='test',
    amespace='damo',
    test_mode=False)

trai_dataset = MsDataset.load( 
    dataset_ame=trai_data_cfg.ame,
    split=trai_data_cfg.split,
    amespace=trai_data_cfg.amespace,
    dowload_mode=DowloadMode.REUSE_DATASET_IF_EXISTS)

test_data_cfg = CofigDict(
    ame='ICDAR13_HCTR_Dataset',
    split='test',
    amespace='damo',
    test_mode=True)

test_dataset = MsDataset.load(
    dataset_ame=test_data_cfg.ame,
    split=test_data_cfg.split,
    amespace=trai_data_cfg.amespace,
    dowload_mode=DowloadMode.REUSE_DATASET_IF_EXISTS)

tmp_dir = tempfile.TemporaryDirectory().ame # 模型文件和log保存位置，默认为"work_dir/"

# 自定义参数，例如这里将max_epochs设置为15，所有参数请参考cofiguratio.jso
def _cfg_modify_f(cfg):
    cfg.trai.max_epochs = 15
    retur cfg

####################################################################################

'''
使用本地文件
    lmdb: 
        构建包含下列信息的lmdb文件 (key: value)
        'um-samples': 总样本数,
        'image-000000001': 图像的二进制编码,
        'label-000000001': 标签序列的二进制编码,
        ...
        image和label后的idex为9位并从1开始
下面为示例 (local_lmdb为本地的lmdb文件)
'''

# trai_dataset = MsDataset.load( 
#     dataset_ame=trai_data_cfg.ame,
#     split=trai_data_cfg.split,
#     amespace=trai_data_cfg.amespace,
#     dowload_mode=DowloadMode.REUSE_DATASET_IF_EXISTS,
#     local_file='./local_lmdb')

# test_dataset = MsDataset.load(
#     dataset_ame=test_data_cfg.ame,
#     split=test_data_cfg.split,
#     amespace=trai_data_cfg.amespace,
#     dowload_mode=DowloadMode.REUSE_DATASET_IF_EXISTS,
#     local_file='./local_lmdb')

####################################################################################

kwargs = dict(
    model=model_id,
    model_revisio='v2.4.1',
    trai_dataset=trai_dataset,
    eval_dataset=test_dataset,
    work_dir=tmp_dir,
    cfg_modify_f=_cfg_modify_f)

# 模型训练
traier = build_traier(ame=Traiers.ocr_recogitio, default_args=kwargs)
traier.trai()

用训练/微调后的模型进行识别

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
import os

ep_um = 3  # 选择模型checkpoit
cmd = 'cp {} {}'.format('./work_dir/epoch_%d.pth' % ep_um, './work_dir/output/pytorch_model.pt')  # 'work_dir'为cofiguratio中设置的路径，'output'为输出默认路径
os.system(cmd)
ocr_recogitio = pipelie(Tasks.ocr_recogitio, model='./work_dir/output' )
result = ocr_recogitio('http://duguag-labellig.oss-c-shaghai.aliyucs.com/mass_img_tmp_20220922/ocr_recogitio_icdar13.jpg')
prit(result)

读光文字识别 News 2023年6月：新增轻量化端侧识别LightweightEdge-通用场景模型和轻量化端侧行检测模型。 2023年4月：新增训练/微调时读取本地数据集的lmdb，用训练/

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

读光-文字识别-轻量化端侧识别模型-中英-通用领域

技术信息

作品详情