电子票据OCR识别_系统开发案例-程序员客栈

语言技术
Python、深度学习、图像处理、算法设计

目标：
- 对电子票据的图像进行OCR识别，在OCR识别基础之上，提取结构化信息。针对票据图像的关键信息抽取任务，作为OCR的下游任务，存在非常多的实际应用场景，如表单识别、车票信息抽取、身份证信息抽取等
算法实现：
- 文本检测 + 文本识别 + 语义实体识别(SER) + 关系抽取(RE)
- 文本检测：使用PP-OCRv3_det模型，训练针对票据的文本检测算法模型，只检测关键信息文本
- 文本识别：使用PP-OCRv3_rec模型，训练针对票据关键信息的文本识别算法模型
- 语义实体识别(SER)：SER阶段主要用于识别出票据图像中的所有key与value，举例说明：“出院诊断”、“就诊医院”为key，“贵阳市妇幼保健院”、“泌尿道感染”为value，这里训练模型，检测出所有关键信息的key与value
- 关系抽取(RE)：在RE阶段，需要标注每个关键字段的key与value的对应关系，即标注键值对进行模型训练
我的工作内容：
- 算法设计
- 算法服务开发

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

电子票据OCR识别

技术信息

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐