企业私有知识库问答系统开源项目

我要开发同款
root7772026年05月30日
5阅读

技术信息

语言技术
Python
系统类型
WebH5
行业分类
人工智能企业服务
开源地址
https://gitee.com/cuisl2020/enterprise-rag
授权协议
MIT许可

功能介绍

基于 RAG(检索增强生成)技术的企业私有知识库问答系统。使用 DeepSeek API 作为大语言模型,ChromaDB + 本地 ONNX Embedding 作为向量检索,支持 TXT/PDF 文档的智能问答,自动识别扫描版 PDF 并执行 OCR 文字识别。
技术架构:
后端框架: FastAPI
前端界面: Streamlit
向量数据库: ChromaDB(原生 API,非 LangChain 封装)
嵌入模型: ChromaDB 内置本地 ONNX 模型(all-MiniLM-L6-v2,无需联网下载)
大语言模型: DeepSeek-V4-Flash(通过 OpenAI 兼容接口调用 https://api.deepseek.com)
文档加载: LangChain(TextLoader + PyPDFLoader),扫描版 PDF 自动 OCR
OCR 识别: cnocr(RapidOCR 架构)+ PyMuPDF 渲染
文档分块: 500 字符/块,50 字符重叠
检索策略: Top-3 语义检索

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论