该系统主要功能为提取文档中客户定制的关键数据,大多数情况下一个文档中关键数据只占文档的一小部分,如何发现并提取这些关键数据往往是业务中的一个瓶颈,该项目主要就是为了解决类似问题,步骤如下:
1. 由用户指定关键数据特征,并提供充足样本,我们根据这些样本和数据特征训练深度学习模型,该模型训练完毕后具有根据关键数据特征自主发掘关键数据的能力。
2. 提供文件上传窗口,支持上传常用文档格式如(word,excel,txt,pdf)等,并支持将上传文档转换成图片。
3. 对步骤2中获取的图片应用步骤1的模型,定位关键信息,并对关键信息自动截图。
4. 对关键信息图像应用ocr技术,提取其中的文字内容,并保存至es。
5. 支持关键信息全文检索
点击空白处退出提示













评论