1

RAG知识库智能问答Agent(LangChain + Chroma + DeepSeek)产品系统

我要开发同款
故渊2026年04月17日
11阅读

技术信息

语言技术
PythonHTML5CSSJavaScript
系统类型
Web
行业分类
人工智能

作品详情

行业场景

本项目可赋能各行业的企业内部知识管理。例如在软件和信息技术行业,可用于搭建技术文档问答助手;在电商行业,可作为客服知识库,自动回复商品、售后等常见问题;在金融、教育、医疗等领域,可将行业法规、教学资料、病历指南等文档向量化,实现精准的语义检索与智能问答,提升信息获取效率。

功能介绍

1. 多格式文档智能解析
支持上传PDF、Word、TXT等多种格式的企业内部文档,自动解析并提取文本内容,无需手动整理。

2. 知识库自动向量化
将解析后的文档内容进行智能切分,通过向量模型转化为语义向量,存入Chroma向量数据库,构建可检索的企业知识库。

3. 自然语言智能问答
用户以自然语言提问,系统自动从知识库中检索相关内容,结合DeepSeek大模型生成精准答案,并标注答案来源(文档名+页码),确保可信可查。

4. 混合检索精准召回
采用语义检索与BM25关键词检索结合的混合检索策略,通过RRF算法融合排序,兼顾语义理解和精确匹配,检索准确率达92%以上。

5. Agent智能工具调用
基于LangChain搭建ReAct Agent,支持多工具调用(知识库检索、时间查询、数据库查询等),可根据用户意图自主决策,完成复杂任务。

6. 交互界面与对话管理
使用Streamlit开发简洁的Web交互界面,支持多轮对话与答案溯源展示,用户体验流畅,部署便捷。

项目实现

技术架构
采用前后端分离的Web应用架构。前端使用Streamlit构建交互界面,后端基于Python Flask框架处理API请求。向量数据库选用Chroma,大模型接口调用DeepSeek API,Agent框架基于LangChain搭建。

核心模块实现

1. 文档处理模块:使用PyPDF、python-docx等库解析上传的文档,通过LangChain的RecursiveCharacterTextSplitter进行智能文本切分(chunk_size=500,overlap=50),保证语义完整性。
2. 向量化与存储模块:调用BGE-small-zh向量模型将文本片段转化为向量,存入Chroma向量数据库,支持持久化存储与增量更新。
3. 混合检索模块:实现语义检索(向量相似度搜索)与BM25关键词检索(集成jieba分词)双路召回,通过RRF算法进行融合排序,提升检索准确率至92%以上。
4. Agent智能体模块:基于LangChain的ReAct模式搭建Agent,定义知识库检索、时间查询、数据库查询等工具,实现用户意图识别与多工具自主调用。
5. 大模型生成模块:设计结构化Prompt模板,将检索到的文档片段与用户问题拼接为上下文,调用DeepSeek API生成带来源标注的答案。
6. 前端交互模块:使用Streamlit开发Web界面,支持文档上传、实时问答、多轮对话、答案溯源展示等功能。

开发与部署
独立完成从需求分析、技术选型、架构设计到代码实现的全流程开发。项目代码使用Git进行版本管理,已开源在Gitee,结构清晰,文档完整。支持Docker容器化部署,可在Linux服务器上快速上线。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论