RAG开发应用_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

针对企业级PDF文档检索问答场景，解决传统文档处理、检索、生成方式准确率低、模型幻觉严重等问题。

功能介绍

多模态PDF文档解析引擎：使用PaddleOCR将PDF转换为Markdown，自动识别标题层级、清洗页眉页脚噪声，通过大模型API为文档图片自动生成语义描述，解决PDF图文混排导致的信息丢失问题。
精细化分块与双路检索架构：设计基于章节层次与滑动窗口的句子级分块策略，采用“摘要初筛+全文精检”双路向量检索机制，有效降低长文档检索噪声。
高级检索与幻觉控制：将向量检索与Rerank重排序模型结合，使MRR@k由0.62提升至0.83，NDCG@k由0.68提升至0.86；通过提示词工程与引用溯源，有效抑制了模型事实幻觉，事实准确率达到91%。

项目实现

技术栈：Python + LangChain + RAG + Chroma + OCR + 重排模型 + 大模型API + 提示词工程 + 模型评估
亮点：使用OCR识别PDF，自动识别表格、公式、算法、代码块等特定文本类型，并自动提取图片
难点：多种复杂类型文本（包括表格、公式、算法、代码块等）和图片的提取、转换和分块处理