DOCFIN-RAG_开源项目-程序员客栈

技术信息

语言技术
Python系统类型
Web行业分类
人工智能开源地址
https://github.com/liding-ai/DOCFIN-RAG授权协议
Apache许可开源组织
佛山市力鼎科技有限公司

行业场景

面向文档金融 / 企业资料场景的私有化检索增强生成 RAG 系统，由力鼎 AI 开源落地，专为海量结构化、非结构化企业文档做本地化智能问答、资料检索、内容分析，可快速二次开发集成至政企、金融、制造、法务等行业业务系统。

功能介绍

面向文档金融 / 企业资料场景的私有化检索增强生成 RAG 系统，由力鼎 AI 开源落地，专为海量结构化、非结构化企业文档做本地化智能问答、资料检索、内容分析，可快速二次开发集成至政企、金融、制造、法务等行业业务系统。

一、全套技术栈
1.开发基座：Python3.10+，模块化工程化编码
2.服务框架：FastAPI后端接口、Streamlit可视化Web界面、CLI命令行三重交互
3.文档解析：MinerU云端OCR、Docling本地双引擎PDF解析，适配扫描件+原版PDF
4.检索引擎：FAISS向量库+BM25关键词混合检索，支持LLM重排、父文档PDR检索
5.大模型适配：原生适配阿里云通义、OpenAI、Gemini，统一模型配置层，一键切换模型
6.工程工具：python-dotenv环境配置、YAML可视化提示词管理、Pydantic结构化数据校验
二、分层架构
四层解耦轻量化架构，低耦合易二次开发：
1.交互层：Streamlit网页、FastAPI接口、CLI命令行多端调用
2.编排服务层：统一流程调度、接口封装、问答业务逻辑处理
3.核心引擎层：文档解析、分块建库、混合检索、大模型问答校验
4.配置横切层：全局环境变量、提示词、模型参数统一管控
四、核心项目亮点
1.双模式PDF解析：云端OCR+本地离线解析双备份，原版、扫描版财报均可精准解析，表格结构化提取
2.高阶RAG优化：搭载父文档检索、LLM智能重排，解决小片段回答失真问题，问答上下文完整度大幅提升
3.防幻觉溯源能力：回答绑定PDF页码、文件哈希校验，所有数据可溯源，杜绝虚假财报数据输出
4.原生金融专属能力：支持多财报横向对比、财务数据结构化抽取、数值类精准问答，垂直金融场景开箱即用
5.极简配置部署：.env全局参数配置、提示词YAML可视化编辑，无需改代码即可调试模型、检索参数

项目实现

一、全套技术栈
1.开发基座：Python3.10+，模块化工程化编码
2.服务框架：FastAPI后端接口、Streamlit可视化Web界面、CLI命令行三重交互
3.文档解析：MinerU云端OCR、Docling本地双引擎PDF解析，适配扫描件+原版PDF
4.检索引擎：FAISS向量库+BM25关键词混合检索，支持LLM重排、父文档PDR检索
5.大模型适配：原生适配阿里云通义、OpenAI、Gemini，统一模型配置层，一键切换模型
6.工程工具：python-dotenv环境配置、YAML可视化提示词管理、Pydantic结构化数据校验
二、分层架构
四层解耦轻量化架构，低耦合易二次开发：
1.交互层：Streamlit网页、FastAPI接口、CLI命令行多端调用
2.编排服务层：统一流程调度、接口封装、问答业务逻辑处理
3.核心引擎层：文档解析、分块建库、混合检索、大模型问答校验
4.配置横切层：全局环境变量、提示词、模型参数统一管控
四、核心项目亮点
1.双模式PDF解析：云端OCR+本地离线解析双备份，原版、扫描版财报均可精准解析，表格结构化提取
2.高阶RAG优化：搭载父文档检索、LLM智能重排，解决小片段回答失真问题，问答上下文完整度大幅提升
3.防幻觉溯源能力：回答绑定PDF页码、文件哈希校验，所有数据可溯源，杜绝虚假财报数据输出
4.原生金融专属能力：支持多财报横向对比、财务数据结构化抽取、数值类精准问答，垂直金融场景开箱即用
5.极简配置部署：.env全局参数配置、提示词YAML可视化编辑，无需改代码即可调试模型、检索参数
6.标准化商用接口：完备FastAPI接口