针对企业级PDF文档检索问答场景,解决传统文档处理、检索、生成方式准确率低、模型幻觉严重等问题。
点击空白处退出提示
针对企业级PDF文档检索问答场景,解决传统文档处理、检索、生成方式准确率低、模型幻觉严重等问题。
多模态PDF文档解析引擎:使用PaddleOCR将PDF转换为Markdown,自动识别标题层级、清洗页眉页脚噪声,通过大模型API为文档图片自动生成语义描述,解决PDF图文混排导致的信息丢失问题。
精细化分块与双路检索架构:设计基于章节层次与滑动窗口的句子级分块策略,采用“摘要初筛+全文精检”双路向量检索机制,有效降低长文档检索噪声。
高级检索与幻觉控制:将向量检索与Rerank重排序模型结合,使MRR@k由0.62提升至0.83,NDCG@k由0.68提升至0.86;通过提示词工程与引用溯源,有效抑制了模型事实幻觉,事实准确率达到91%。
技术栈:Python + LangChain + RAG + Chroma + OCR + 重排模型 + 大模型API + 提示词工程 + 模型评估
亮点:使用OCR识别PDF,自动识别表格、公式、算法、代码块等特定文本类型,并自动提取图片
难点:多种复杂类型文本(包括表格、公式、算法、代码块等)和图片的提取、转换和分块处理




评论