智能文档清洗与审核分流系统（doc_cleaner）

技术信息

作品详情

行业场景

在常用的企业知识管理和智能问答系统（RAG）中，原始文档常常存在格式混乱、OCR噪声、结构断裂等问题，导致入库前难以保证数据质量。
doc_cleaner 针对这一痛点，提供自动化的文档清洗、复杂度评估和人工审核分流能力，适用于金融、医疗、制造等行业的批量文档标准化和风险筛查场景，显著提升数据入库前的可用性和安全性。https://github.com/alexLCL/doc-cleaner-showcase

功能介绍

doc_cleaner 以固定10节点 LangGraph流程为核心，支持多格式文档（PDF、扫描件、DOCX、图片等）自动识别与抽取。
系统通过智能路由（MinerU/Unstructured）、复杂度评分、清洗策略决策、半自动清洗、自动审核与人工复核闭环，实现高质量纯文本输出。
产物包括清洗结果、风险报告、复核队列、失败追踪等，支持批量处理、断点续跑和插件化策略扩展，满足企业级文档治理需求。

项目实现

项目采用 Python 3.11.9，核心流程编排基于 LangGraph，抽取工具优先使用 MinerU 和 Unstructured，结合 Qwen3-8B LLM实现智能决策。
支持批量处理、日志追踪、断点续跑，所有产物均为纯文本格式，便于后续入库与分析。清洗策略插件化，易于快速扩展特殊场景。
项目亮点在于自动化复杂度评估、风险分流、人工复核闭环和溯源保障，解决了大规模文档入库前的质量与安全难题。