设计并独立开发了一套高性能、可扩展的智能问答后端系统。该项目摒弃了传统的单一向量检索模式,深度集成了知识图谱 (Graph RAG) 与智能路由 (Agentic RAG),专为处理复杂的长文本摘要、跨文档逻辑推理及高并发企业级需求而打造。系统采用了严谨的分层架构设计(API网关层、核心引擎层、数据处理层),具备极强的业务延展性。
点击空白处退出提示
设计并独立开发了一套高性能、可扩展的智能问答后端系统。该项目摒弃了传统的单一向量检索模式,深度集成了知识图谱 (Graph RAG) 与智能路由 (Agentic RAG),专为处理复杂的长文本摘要、跨文档逻辑推理及高并发企业级需求而打造。系统采用了严谨的分层架构设计(API网关层、核心引擎层、数据处理层),具备极强的业务延展性。
1. 混合驱动的智能问答引擎 (Hybrid QA Engine)
智能意图路由 (Agentic Router): 告别单一检索模式。系统内置意图识别引擎,能够动态分析用户提问,自动路由至最匹配的策略(向量检索、图谱推理、或日常对话),极大提升回答的精准度。
“向量+图谱”双引擎检索: 深度整合 Milvus(向量空间相似度)与 Nebula Graph(实体关系拓扑),在处理“多跳逻辑推理”和“跨文档关联”问题时,有效克服传统 RAG 系统的局限与大模型的幻觉。
多轮对话与上下文管理: 提供连贯的交互体验,支持会话历史隔离、持久化存储与精准回溯。
2. 自动化重型知识解析流水线 (Knowledge Processing Pipeline)
全格式文档接管: 支持多格式文档的上传、解析与结构化切分。
数据清洗与增强 (Enhancement & Deduplication): 内置强大的数据清洗机制,自动进行文本去重与降噪处理,确保入库数据的“纯净度”,从源头提升检索质量。
长文本降维摘要 (Map-Reduce Summarization): 针对超长财报、研报等文档,采用 Map-Reduce 架构进行分块并行摘要提取,完美突破大模型上下文窗口限制。
3. 工业级并发与异步调度 (Async Task Scheduling)
非阻塞任务流: 将耗时的文档向量化(Embedding)、知识图谱构建等重负载操作全部下放至异步任务池。
任务状态可视化: 对外提供完善的任务进度查询 API,保证在多用户高并发上传海量文档时,问答核心接口依然保持毫秒级响应。
4. 全维度系统可观测性 (MLOps & Observability)
全链路追踪机制 (Trace Management): 打破 AI “黑盒”。系统自动记录每一次调用的 Prompt 组装
本项目采用 Python + FastAPI 构建底层非阻塞异步框架,严格遵循高内聚、低耦合的设计原则,核心技术落地细节如下:
1. 模块化架构与 API 设计
系统深度解耦为路由控制、核心引擎、文件解析与数据模型四大模块。全面采用 Pydantic 构建类型安全的数据模型,确保前后端交互的严格校验。对外提供标准化的 RESTful API,并自动生成交互式 OpenAPI 文档,极大降低了外部系统的对接成本。
2. 知识库预处理流水线
实现多格式文档(PDF/Word/Markdown等)的统一读取与基于语义边界的切片(Chunking)。针对知识库数据冗余痛点,自研基于局部敏感哈希(SimHash)的文本去重与降噪算法,并在入库前进行元数据增强,从源头保障向量库的数据质量。
3. 多智能体 RAG 与混合检索
动态意图路由: 利用轻量级 LLM 对用户 Query 进行意图分类,动态分发至闲聊、检索或推理链路。
双引擎驱动: 深度整合 Milvus(向量相似度检索)与 Nebula Graph(知识图谱关系网络),实现双路召回与重排序,精准破解复杂“多跳问题”与大模型幻觉
长文本处理: 采用 Map-Reduce 分治架构,并行提取区块摘要并合并生成全局总结,突破模型上下文窗口限制
4. 异步高并发与任务调度
针对大模型 API 高延迟与 Embedding 计算密集的问题,全面采用 asyncio 非阻塞编程。自建轻量级异步任务队列,将文档入库、图谱构建等重负载操作下发至后台执行,前端立即返回 Task ID,彻底解决接口超时阻塞,保障生产环境高可用
5. 生产级可观测性与监控
独立开发全链路日志追踪模块无侵入式拦截记录 RAG 全生命周期数据。毫秒级实时监控对话延迟、Prompt 组装模板、召回片段质量及大模型 Token 消耗,为持续的模型调优提供精准的数据支撑








评论