本地化规则驱动知识库系统（Vault Wiki DB）

技术信息

语言技术
Python系统类型
Web、MacOS、Windows行业分类
人工智能、企业服务

作品详情

行业场景

、立项原因，旨在解决什么产品问题
传统笔记软件（如Obsidian/Notion）存在“存了找不到、AI调用成本高、知识碎片化”的痛点：用户需要一次性投喂大量文档才能让AI回答简单问题，且检索结果缺乏结构化关联。本项目旨在构建一套本地化、规则驱动的知识库系统，将Markdown、PDF等非结构化资料自动转化为可检索、可演化、可审计的结构化知识资产，降低AI调用个人知识的token成本和偏移风险。

2、行业场景，业务背景
适用于个人知识工作者（如产品经理、研究员、学生）或小型团队内部知识沉淀场景。典型使用案例包括：历史项目复盘案例库、售前方案支持库、自动化客服FAQ、技术文档问答等。系统以Obsidian库为人类交互界面，通过CLI脚本实现“投料-解析-入库-检索”闭环，完全本地运行，保证数据隐私。

功能介绍

、项目有哪些具体功能模块

投料与解析模块（ingest）：监控Input目录，自动调用AI模型对文档进行语义分割、摘要生成、标签预测，产出结构化知识块（Chunk）。

图谱与关系模块（build_graph）：构建知识块之间的网状关联（relations.jsonl），支持标签体系多层级索引。

记忆演化模块（evolve_knowledge）：周期性扫描知识库，基于使用反馈和标签修订建议，动态调整知识评分（chunk_score），实现知识老化与权重更新。

Agent链接模块（link_agents）：将特定知识块与预定义的Agent（如“提炼师”“知识库管理员”）关联，支撑自动化问答与任务编排。

反馈闭环模块（suggest_tag_revisions）：读取反馈区用户标记，生成标签修订建议，供人工或模型批量处理。

2、项目的主要功能描述
用户将任意Markdown/PDF放入Input文件夹，执行ingest脚本：系统先复制原文到镜像层（可选），再调用AI模型将长文拆解为100-300 token的独立知识块，每个块附带预测标签和原文引用路径。成功后，结构化数据写入RAW层。检索时，Agent可基于标签树逐层索引，同步抓取多块相关知识和原文。失败时自动回滚并保留源文件，审计日志完整。

项目实现

1、“我”负责哪些具体任务？
我独立完成了全流程产品设计、架构定义与核心脚本开发；
制定分区规范（人类区/投料区/程序化区/RAW/Mirror），编写PRD文档和运维手册。

开发ingest.py：实现递归扫描Input、模型调用（语义分割/标签预测）、片段写入raw_store、input_registry.jsonl登记、成功/失败回滚逻辑及运维门控（累计成功N次后触发自检Agent提示）。

开发build_graph.py、evolve_knowledge.py、suggest_tag_revisions.py等模块，实现知识块关系构建、知识评分演化、反馈闭环。

配置config.yaml，支持push_to_external_paths开关（控制片段落盘位置为DB/raw_store或外部RAW层）。

编写CLI命令示例和PowerShell运行指南，确保本地化可复现。

2、项目使用了哪些技术栈、架构，实现上亮点、难点

技术栈：Python 3.10+，标准库（pathlib, json, hashlib），外部模型调用（通过本地API或云端），文件系统（JSONL/Markdown）。无重型框架，强调轻量、可审计、跨平台。

架构亮点：

分区即契约：通过Vault根+相对路径统一所有脚本的输入输出，人类在Obsidian里管理线头（PRD/索引），程序化产物集中在DB/，互不干扰。

原子化回滚：每个文件ingest失败时，不仅保留源文件，还会删除本次已写入的wiki/片段记录，通过ingest_state.json和临时文件顺序保证一致性。

门控运维：引入ingest_success_modulo配置，成功N次后自动要求执行运维自检Agent，防止长期不跑Phase3导致知识老化。