OCR产品系统

我要开发同款
柳芽2025年09月24日
47阅读

技术信息

语言技术
Python
系统类型
算法模型
行业分类
人工智能

作品详情

行业场景

1、2019年因用户需要开发某市检察院的卷宗文书图片识别编目系统,因此决定开发OCR系统
2、调研了大量的开源ocr系统都不够成熟,比如比较火的paddleocr在印章覆盖识别,手写,模糊文本上识别效果较差,可能缺少检察院类的卷宗场景,因此没有采纳,决定重新开发一套ocr系统

功能介绍

OCR引擎综合利用人工智能最前沿技术,采用仿生网络+神经网络训练学习,针对检察院场景,通过仿生神经网络技术自动模拟生成大量检察院特色的卷宗训练样本,并基于生成的1.9亿张卷宗样本,由自研神经网络反复训练,构建编目引擎。该引擎具有范能力强,无差别识别手写、印章覆盖、折痕、模糊、倾斜、倒立等卷宗图片的能力,并且可以自动0-360度对样本进行矫正,极大提高了用户的编目效率。
目前市面上的ocr产品都是从图片提取文字和坐标,对于倾斜角度较大的图片,比如大于90度的无法提取文字,但是实际使用场景中,很多的图片是倾斜、甚至是倒立的,尤其是在检察院的业务场景中,体现的比较明显,从公安局过来的卷宗质量是参差不齐的,有模糊的,有倾斜的,有倒立的,这样导致案管用户在编目时比较麻烦,同时承办人在阅卷时也不方便查看,基于以上原因我们基于深度学习网络,设计并实现了全新的ocr产品,一体化OCR(all in one)
具有的能力:
1、无差别识别手写、印章覆盖、折痕、模糊、倾斜、倒立等卷宗,准确率达到90%
2、支持对倒立、倾斜的卷宗自动矫正。卷宗大角度矫正(90、270、180)矫正、小角度矫正(

项目实现

1、我负责模型的选型和实现全流程主导实现,模型采用dbnet + crnn来实现
2、dbnet进行了改进,增加了角度分支,支持旋转矫正,训练损失函数进行了权重调整,大检测框权重低,小检测框权重高,防止小目标丢失
3、crnn模型结构进行了改进,由cnn+lstm改为cnn+transfomer
4、工作重点主要在crnn模型的样本合成和收集,采用仿生技术、手写合成技术、场景合成以及各种数据增强,合成了5000w以上样本,并且收集了10w+字体合成样本,把识别模块调整到最优
5、适配了tensorrt,目前在某一线城市检察院运行3年有余

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论