知海 KnowSea · 企业级 RAG 知识库与智能体知识服务

技术信息

作品详情

行业场景

企业知识库建设普遍面临四大问题：① 文档多源异构（Word/PDF/扫描件/网页/数据库），
统一抽取困难；② 单纯向量检索精度不够，遇到"政策原文"、"规则条款"等强逻辑场景
失效；③ 大模型幻觉无法消除，回答"看似可信但完全错误"的内容，企业不敢落地；④
知识不能沉淀复用，每次都重新检索成本高。本项目构建"向量+图谱+全文"三模融合的
企业级知识库平台，并提供智能体可调用的知识服务接口，已应用于企业内部知识门户、
合规问答、技术支持等多个场景，作为底层能力支撑了公司多个 Agent 项目。

功能介绍

1. 多源文档处理流水线：PDF/Word/扫描件/HTML/Markdown 统一抽取，扫描件 OCR + 版面
解析 + 公式表格识别
2. 三模融合检索：向量召回(Milvus) + 知识图谱推理(Neo4j) + 全文检索(ES)，结果用
Reranker 二次排序，召回准确率显著优于单模方案
3. 知识图谱自动构建：基于 LLM 抽取实体与关系，人工 schema 约束 + 增量审核入图
4. 引用溯源：每个回答都附带原文截图与页码，杜绝幻觉，企业敢于直接面客
5. 智能体知识 API：提供给 Agent 调用的 RESTful 接口，支持过滤、排序、关联推荐
6. 知识管理后台：上传、审核、版本管理、权限控制、热度统计、知识库健康度监控

项目实现

作为架构师：
1. 设计三模融合检索架构，向量+图谱+全文各司其职，融合排序提升精度
2. 基于 Milvus 实现 hybrid search（dense + sparse 混合），自适应选择检索策略
3. 知识图谱构建：基于 LLM 的实体关系抽取 prompt 工程 + 人工 schema 约束，避免抽
取漂移
4. 后端 FastAPI 异步处理大文档解析（单文档百页级别在 20s 内完成），前端 Vue 3 +
Element Plus 实现管理后台
5. 难点：超长文档的分块策略，方案是基于语义的滑动窗口 + 父子文档结构保留，长文
档检索准确率从 71% 提升到 89%
6. 该系统作为底层服务支撑了多智能体协作平台与 Parlant 客服系统