本项目面向风电运维/能源装备知识管理场景:运维标准、说明书、巡检判据与网页资料分散且更新频繁,人工检索慢、答案不一致,影响故障处置效率与准确性。目标是构建基于RAG的智能问答系统,统一接入本地语料+网址库,支持增量更新并输出可追溯(标注来源与类型)的答案,提升决策效率并降低误操作风险。
点击空白处退出提示
本项目面向风电运维/能源装备知识管理场景:运维标准、说明书、巡检判据与网页资料分散且更新频繁,人工检索慢、答案不一致,影响故障处置效率与准确性。目标是构建基于RAG的智能问答系统,统一接入本地语料+网址库,支持增量更新并输出可追溯(标注来源与类型)的答案,提升决策效率并降低误操作风险。
系统提供端到端RAG能力,核心包含三大模块:1、 语料接入:支持Markdown/PDF/DOCX/YAML等本地文件,并从urls.txt批量抓取网页内容;2、 增量更新:用“文件路径+修改时间mtime”记录已处理文件,另存已处理网址集合,自动跳过未变更数据;3、检索问答:按500/50切块,使用BAAI/bge-small-zh-v1.5生成向量,写入Chroma向量库,相似度检索Top-k后调用DeepSeek,通过严格Prompt要求“仅基于上下文回答”,并标注每条信息的来源与类型(文件/网页)。同时打印检索来源便于排障;当无新增语料时自动加载既有向量库继续服务。
主要负责增量式语料入库与向量库更新链路并保证答案可追溯:设计并实现文件后缀到Loader的映射、统一元数据、已处理状态持久化,并完成LangChain组件集成(分块器、Embedding、Chroma、Prompt、DeepSeek LLM)。亮点在于增量刷新速度快、检索来源透明可打印、以及无新增语料仍可加载旧库继续用的容错。




评论