年报系统智能引擎开发

我要开发同款
王文强2023年06月03日
58阅读
开发技术python
所属分类pdf

作品详情

1 、通过前端上传年报、财务word文档到后端。2 、Django后端使用pydocx库将word文档转成html文件。3 、使用PyQuery分别提取两个转化后的html文件的文本内容。4 、通过CSS的行内样式和内部样式优先级分析字体大小和粗细。5 、通过CSS样式和正则将文本内容解析成章节、段落、内容和表格树形结构。6 、将表格的粒度细化到单元格,不匹配文本通过标点符号细化到每个句子和文字。7 、对两个树形结构文本内容进行校对,校对流程如下图(只画了第一层树状结构)。8 、思路:树形结构对比整个树干、树枝、树叶和花朵匹配一个剪一个,剩余不匹配部分根据相似度匹配叶子节点,通过标点符号和分词生成第二层树状结构,同样方式分别对比第二层树状结构的树干、树枝、树叶。9 、对html文件做初始化所有文本内容统一颜色,表格设置边框。10、将首次匹配成功的章节、段落、内容、表格渲染成白底黑字。11、已找到的表格未匹配成功的单元格背景渲染成蓝色。12、对第一层树状结构匹配成功的块级元素,在两个html文件中分别设置相同描点。13、对第二层树状结构匹配成功的树干、树枝、树叶渲染成白底黑字并添加锚点。14、将第二层匹配和不匹配的叶子结点之间设置锚点实现相互跳转。15、将相似度不高并且找不到的文本字体加粗背景设置成橙色。16、在年报html页面添加JS代码渲染出错误列表隐藏栏,设置错误元素跳转描点。17、通过Django返回渲染后的年报html,鼠标点击任意块级元素返回新窗口财务页面,两个html页面之间可通过锚点相互跳转。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论