财经数智问答_系统开发案例-程序员客栈

技术信息

语言技术
Python、MySQL系统类型
Web行业分类
人工智能、企业服务参考价格
200

作品详情

行业场景

在资本市场信息披露透明度持续深化、监管问询机制日益规范、投研分析需求日益高频
的背景下，机构投资者、券商分析师等市场参与者，对上市公司财务数据的实时洞察与深度
挖掘需求不断增长。传统依赖人工拆解报表、Excel 分析、BI 工具分析的工作模式面临效率
低、可扩展性弱、交互性差、信息割裂等缺陷，难以支撑多维度、强关联的查询和分析场景。
纯粹依靠大语言模型又存在资源浪费、实时性差等问题。
为解决上述痛点，本赛题拟构建“智能问数”助手，通过“自然语言输入→意图识别→
SQL 生成→数据查询→可视化呈现→分析结论输出”的全流程自动化链路实现零技术门槛的
跨周期、跨公司的复杂财报数据查询与分析，低成本提升数据获取效率与决策支持精准度。

功能介绍

chatbot_standalone.py：标准接口版，无界面，供main.py调用批量答题
chatbot_web.py：Web网页版，使用Flask框架，提供聊天界面
main.py：批量答题主程序，自动读取问题汇总文件，生成结果
database.py：数据库操作模块，提供数据库连接和数据插入功能
proposal_all.py：数据校验模块，负责从不同角度校验parse后的数据是否规范，返回校验处理后的数据
auto_process.py：自动处理模块，负责监控财报文件根目录下的新文件并自动处理
parse_pdf.py：PDF解析模块，负责从PDF文件中解析数据库表中需要的数据

项目实现

财报解析与数据库构建
基于中药上市公司 PDF 财报、公司基本信息表、研报信息表，构建结构化 MySQL
数据库，实现财报数据⾃动化解析、清洗、校验与批量⼊库，为后续智能问数系统提
供⾼质量、⾼可靠性的数据源。
关键挑战与思路
PDF 格式不统⼀：上交所、深交所财报命名规则与排版差异较⼤，采⽤关键词精
准匹配 + 双路径解析⽅案适配不同版式。
表格提取存在⼀定难度：财报存在跨⻚表格、合并单元格、嵌套表格等复杂结构，
采⽤ pdfplumber ⼯具实现表格与⽂本⾼精度提取。
数据⼝径混乱：不同财报存在单位混⽤、百分⽐与数值并存、表述不统⼀问题，
设计专属函数完成数值与单位全标准化。
数据⾼效批量插⼊：为优化数据库导⼊效率，解决单条插⼊耗时过⻓问题，通过
列表缓存待插⼊数据，利⽤循环迭代完成数据预处理，并采⽤批量提交⽅式实现⾼效
数据持久化。
勾稽关系校验严格：资产负债表、利润表、现⾦流量表需严格符合会计恒等式，
建⽴多维度、全表间的数据校验规则。
数据加载与基础清洗
批量读取 PDF 财报⽂本与表格内容，剔除空⻚、空⾏、乱码与⽆效字符，统⼀编
码为 UTF-8，仅保留指标名称、对应数值、报告期三类核⼼有效信息。
数值与单位标准化
通过 parse_number 函数完成全量数据标准化：移除千分位逗号、空格、⽆效符
号；百分⽐数值⾃动转为标准⼩数；全库财务数据统⼀单位为万元。
异常值与缺失值处理
核⼼财务指标缺失直接标记为空值，不强⾏填充避免数据失真；异常波动数据采
⽤ 3σ 原则识别并标记警告；重复数据按 “股票代码 + 报告期 + 指标名称” 唯⼀键去重。