在常用的企业知识管理和智能问答系统(RAG)中,原始文档常常存在格式混乱、OCR噪声、结构断裂等问题,导致入库前难以保证数据质量。
doc_cleaner 针对这一痛点,提供自动化的文档清洗、复杂度评估和人工审核分流能力,适用于金融、医疗、制造等行业的批量文档标准化和风险筛查场景,显著提升数据入库前的可用性和安全性。
点击空白处退出提示
在常用的企业知识管理和智能问答系统(RAG)中,原始文档常常存在格式混乱、OCR噪声、结构断裂等问题,导致入库前难以保证数据质量。
doc_cleaner 针对这一痛点,提供自动化的文档清洗、复杂度评估和人工审核分流能力,适用于金融、医疗、制造等行业的批量文档标准化和风险筛查场景,显著提升数据入库前的可用性和安全性。
doc_cleaner 以固定10节点 LangGraph流程为核心,支持多格式文档(PDF、扫描件、DOCX、图片等)自动识别与抽取。
系统通过智能路由(MinerU/Unstructured)、复杂度评分、清洗策略决策、半自动清洗、自动审核与人工复核闭环,实现高质量纯文本输出。
产物包括清洗结果、风险报告、复核队列、失败追踪等,支持批量处理、断点续跑和插件化策略扩展,满足企业级文档治理需求。
项目采用 Python 3.11.9,核心流程编排基于 LangGraph,抽取工具优先使用 MinerU 和 Unstructured,结合 Qwen3-8B LLM实现智能决策。
支持批量处理、日志追踪、断点续跑,所有产物均为纯文本格式,便于后续入库与分析。清洗策略插件化,易于快速扩展特殊场景。
项目亮点在于自动化复杂度评估、风险分流、人工复核闭环和溯源保障,解决了大规模文档入库前的质量与安全难题。






评论