Eleconet智能知识库系统产品系统Vibe Coding

我要开发同款
9阅读

技术信息

作品详情

行业场景

过去十年,企业文档资产呈指数级增长。技术手册、合规规范、培训资料、客服问答、会议记录等内容分散在 Confluence、飞书、云盘、本地服务器甚至员工个人电脑中,形成严重的**信息孤岛**。与此同时,大语言模型(LLM)让"机器读懂文档"成为现实,但通用 LLM 的知识截止于训练时间,无法回答"公司今年 Q3 的 SLA 标准是什么"这类私有问题。这一矛盾催生了 RAG(检索增强生成)技术路线的爆发,也是本产品的根本立项动因。
立项具体原因为:**一是企业知识检索效率极低**。McKinsey 调研显示,知识工作者每天平均花 1.8 小时在搜索和整理信息上;传统关键词搜索依赖精确匹配,语义理解弱,常导致重复劳动与决策失误。
**二是现有方案均有明显短板**。传统搜索(ES/Solr)语义能力弱;通用 LLM(ChatGPT 等)无法访问私有数据,合规风险高;商业知识库(Notion AI、飞书 AI)绑定平台,消化不了扫描件与音视频等遗留格式;自建 RAG 工程成本高,中小团队难以负担。市场缺一款同时做到**私有化部署 + 多格式解析 + 开箱即用 + 灵活模型选择**的产品。
**三是窗口期明确**。2024—2025 年是企业 AI 化关键窗口,需求强烈但中文化、私有化的成熟 RAG 产品仍稀缺,格局尚未固化。
典型行业场景为:
- **法律 / 合规**:律所上传历史合同与操作规程,律师提问"制造业客户违约赔偿条款通常如何约定",系统召回相关条款并标注出处,检索时间从 2 小时压缩到 30 秒。
- **制造业**:设备手册(扫描件 OCR)与维修视频(Whisper 转录)统一入库,工程师现场输入故障代码即可获取排查步骤。
- **教育培训**:机构将课程讲义与考题发布至知识库市场,学员按需购买访问权进行交互式问答,知识资产从"一次性销售"转为"持续变现"。

功能介绍

RAG 智能知识库问答系统
核心定位:基于 RAG(检索增强生成)技术的 SaaS 知识库问答平台。用户上传文档后,可通过自然语言对话检索内容并获得 AI 答案,每条回答附带来源引用,可追溯至原始文件。

主要功能
知识库管理:支持创建、编辑、删除多个独立知识库;可从知识库市场选用模板(客服、法律、HR 等),快速搭建特定场景的知识库;支持文档列表查看与单文档删除。
多格式文档解析:覆盖文本(txt/md/csv/json 等)、PDF、Office(Word/Excel/PPT)、图片(OCR + Vision 双通道)、音频(Whisper 语音转录)、视频(提取音频后转录)六大类型。
RAG 问答引擎:文档自动分块→Embedding→向量存储(ChromaDB),提问时语义检索 top-k 片段作为上下文送入 LLM;支持多轮对话保持历史上下文,流式响应(SSE)实时输出。
多 LLM 支持:设置页可切换 OpenAI、DeepSeek、智谱 GLM、通义千问、Ollama(本地)及自定义兼容接口,无需改代码。
用户权限体系:JWT 注册/登录,邮件+短信双验证。三级套餐:Free(5库/10文档/1MB)、Pro(100库/100文档/1GB,支持分享)、Enterprise(1000文档/库)。
知识库分享:Pro+ 用户可生成带过期时间的访客链接(1小时有效),访客免登录即可使用该知识库问答。
支付系统:支持微信支付与支付宝,按月或按年订阅 Pro/Enterprise,支付后自动升级套餐并记录到期时间。
管理员后台:查看全部用户,修改角色与套餐,批量重置密码并邮件通知,管理 OCR/支付/短信/LLM 等系统配置。
仪表板统计:展示知识库数、文档数、向量块数、对话数,支持个人资料查看与修改。

项目实现

后端:FastAPI + Uvicorn(ASGI)、SQLite + SQLAlchemy 2.0、ChromaDB 向量库、JWT 认证、OpenAI SDK 多 Provider 兼容、PyMuPDF/python-docx/openpyxl/pytesseract 文档解析、Whisper + ffmpeg 音视频转录、微信/支付宝支付、阿里云短信

前端:React 18 + Vite,原生 CSS,自定义 Hooks/Services 分层,无第三方 UI 库

部署:Docker Compose(backend / frontend / nginx / certbot),Nginx 反代 + Let's Encrypt 自动续期 HTTPS

架构亮点

Provider 抽象层:LLM/Embedding 统一经 llm_provider.py,OpenAI 兼容接口支持 6 家服务商,切换仅改 JSON 配置
RAG Pipeline:上传→解析→三级分块(段落/句子/字符,带 overlap)→批次写入 ChromaDB→top-k 语义检索→LLM→SSE 流式输出
Parser 工厂:按扩展名路由,继承 BaseParser 即可扩展新格式
OCR 双通道:百度 OCR 优先,降级 Tesseract 兜底
大文件音视频:ffmpeg 提取音轨,>25MB 按 600s 分段调 Whisper 后拼接
实现难点

Embedding 一致性:切换 Provider 后向量空间失效,旧数据需重新向量化
SSE 时序:流式 token 输出完毕后再推送 sources,前端须正确处理异步序列
分块重复:overlap 保语义完整但产生重复 chunk,召回时需过滤高相似结果
访客隔离:分享链接需在无登录态下同时校验归属、套餐等级、链接有效期

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论