智能文档清洗与审核分流系统(doc_cleaner)产品系统

我要开发同款
鲁班小绿2026年03月07日
4阅读

技术信息

语言技术
Python
系统类型
Web
行业分类
人工智能企业服务

作品详情

行业场景

在常用的企业知识管理和智能问答系统(RAG)中,原始文档常常存在格式混乱、OCR噪声、结构断裂等问题,导致入库前难以保证数据质量。
doc_cleaner 针对这一痛点,提供自动化的文档清洗、复杂度评估和人工审核分流能力,适用于金融、医疗、制造等行业的批量文档标准化和风险筛查场景,显著提升数据入库前的可用性和安全性。

功能介绍

doc_cleaner 以固定10节点 LangGraph流程为核心,支持多格式文档(PDF、扫描件、DOCX、图片等)自动识别与抽取。
系统通过智能路由(MinerU/Unstructured)、复杂度评分、清洗策略决策、半自动清洗、自动审核与人工复核闭环,实现高质量纯文本输出。
产物包括清洗结果、风险报告、复核队列、失败追踪等,支持批量处理、断点续跑和插件化策略扩展,满足企业级文档治理需求。

项目实现

项目采用 Python 3.11.9,核心流程编排基于 LangGraph,抽取工具优先使用 MinerU 和 Unstructured,结合 Qwen3-8B LLM实现智能决策。
支持批量处理、日志追踪、断点续跑,所有产物均为纯文本格式,便于后续入库与分析。清洗策略插件化,易于快速扩展特殊场景。
项目亮点在于自动化复杂度评估、风险分流、人工复核闭环和溯源保障,解决了大规模文档入库前的质量与安全难题。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论