基于大语言模型的文档理解与多源数据融合系统

技术信息

语言技术
Python、Mongo、Vue、TypeScript、ElementUI系统类型
Web行业分类
人工智能、教育校园

作品详情

行业场景

基于大语言模型的文档理解与多源数据融合系统面向企事业单位资料分散、人工整理成本高、重复填报效率低等现实问题，围绕文档理解、多源数据融合和模板回填构建智能处理平台。项目聚焦将docx、xlsx、md、txt等非结构化资料转化为可复用、可审计、可导出的结构化成果，帮助用户从海量文本中快速定位关键信息，降低人工摘录、汇总和复核带来的时间消耗与差错风险。

功能介绍

1.非结构化文档信息提取模块该模块是系统的数据入口和能力底座，负责将 Word、Excel、Markdown、纯文本等来源文档转化为可查询、可复用、可导出的结构化结果。其目标并非仅做一次性抽取，而是为后续智能填写、检索和业务复核提供稳定的数据基础。
2.表格自定义数据填写模块该模块是项目价值输出最直接的部分，负责将已提取的数据、原始文本或多源文档内容，转换为符合模板结构的数据并写回 Word/Excel 模板。
3. 文档智能操作交互模块面向“人与文档直接交互”的场景，提供自然语言指令驱动的文档操作体验。具备指令输入、操作执行、历史记录、快捷指令、基础回滚和预览入口等能力。

项目实现

负责全栈开发
前端：Vue3 + Vite + TypeScript + Element Plus + Pinia + Vue Router
后端：FastAPI + Uvicorn + Pydantic + Motor + aiofiles
文档处理：MarkItDown + python-docx + openpyxl + markdown
大模型与编排：LangChain + GLM / Qwen / SiliconFlow 可配置接入
存储：MongoDB + ChromaDB + 本地文件目录
创新亮点：项目没有将模型能力硬编码为单一厂商调用，而是通过 LLMClientFactory、统一配置与运行时设置机制，形成 GLM、Qwen、SiliconFlow 的统一接入层。该设计既便于比赛演示时按场景切换模型，也降低了后续模型替换与扩展成本。在智能填写场景中，输入数据并不总是规则表格。当前实现通过模板列语义反向约束原始文本记录抽取，将段落中的实体、数值和单位识别出来，再构造成虚拟表数据源参与后续填写规划。这一设计显著提升了系统面对段落型材料时的适用性。项目没有停留在“模型输出一个答案就结束”的松散链路，而是构建了 FillPlan 生成、计划校验、数据转换、模板写回和结果下载的闭环机制。这使得模型能力被放在可执行、可验证的工程流程之中，而非不可控的黑盒结果之中。