智能文档问答系统开源项目

我要开发同款
lk2026年06月05日
7阅读

技术信息

语言技术
JavaPython
系统类型
Web
行业分类
人工智能
开源地址
https://gitee.com/likai179/DocMind
授权协议
Apache许可

功能介绍

核心功能:
- 多格式文档支持:支持 PDF、Word(.doc/.docx)、PowerPoint(.pptx)、Excel(.xlsx/.xls)、CSV、TXT、Markdown、HTML 等文件格式
- 智能问答:基于文档内容进行精准问答,提供引用来源
- 多知识库管理:支持创建、删除、管理多个知识库,按部门/用途分离
- 知识库访问控制(ACL):细粒度权限控制,支持设置知识库所有者、允许访问的用户/角色、公开访问开关
- 元数据过滤检索:在对话过程中可按标签、分类、作者、部门、机密级别等条件过滤文档,通过 Chroma where filter 实现
- MMR 向量检索:最大边际相关性检索,fetch_k 候选文档中按相关性+多样性平衡选取
- Sentence Window 句子窗口:子文档精细匹配 + 父文档上下文展开,基于 .npy 缓存 embedding 加速
- BM25Plus 关键词检索:倒排索引 + Robertson-Sparck Jones IDF + δ 短文档补偿,中文 bigram 分词
- 混合检索与去重:按加权分数合并向量检索和 BM25 结果,去除重复内容
- MMR λ 动态调整:根据查询类型(FACTUAL / OPINION / LIST)自动调整 λ 参数(相关性/多样性平衡)
- 本地重排序:使用 BGE-Reranker-Large 模型进行 Cross-Encoder 语义评分
等功能

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论