在资本市场信息披露透明度持续深化、监管问询机制日益规范、投研分析需求日益高频
的背景下,机构投资者、券商分析师等市场参与者,对上市公司财务数据的实时洞察与深度
挖掘需求不断增长。传统依赖人工拆解报表、Excel 分析、BI 工具分析的工作模式面临效率
低、可扩展性弱、交互性差、信息割裂等缺陷,难以支撑多维度、强关联的查询和分析场景。
纯粹依靠大语言模型又存在资源浪费、实时性差等问题。
为解决上述痛点,本赛题拟构建“智能问数”助手,通过“自然语言输入→意图识别→
SQL 生成→数据查询→可视化呈现→分析结论输出”的全流程自动化链路实现零技术门槛的
跨周期、跨公司的复杂财报数据查询与分析,低成本提升数据获取效率与决策支持精准度。
chatbot_standalone.py:标准接口版,无界面,供main.py调用批量答题
chatbot_web.py:Web网页版,使用Flask框架,提供聊天界面
main.py:批量答题主程序,自动读取问题汇总文件,生成结果
database.py:数据库操作模块,提供数据库连接和数据插入功能
proposal_all.py:数据校验模块,负责从不同角度校验parse后的数据是否规范,返回校验处理后的数据
auto_process.py:自动处理模块,负责监控财报文件根目录下的新文件并自动处理
parse_pdf.py:PDF解析模块,负责从PDF文件中解析数据库表中需要的数据
财报解析与数据库构建
基于中药上市公司 PDF 财报、公司基本信息表、研报信息表,构建结构化 MySQL
数据库,实现财报数据⾃动化解析、清洗、校验与批量⼊库,为后续智能问数系统提
供⾼质量、⾼可靠性的数据源。
关键挑战与思路
PDF 格式不统⼀:上交所、深交所财报命名规则与排版差异较⼤,采⽤关键词精
准匹配 + 双路径解析⽅案适配不同版式。
表格提取存在⼀定难度:财报存在跨⻚表格、合并单元格、嵌套表格等复杂结构,
采⽤ pdfplumber ⼯具实现表格与⽂本⾼精度提取。
数据⼝径混乱:不同财报存在单位混⽤、百分⽐与数值并存、表述不统⼀问题,
设计专属函数完成数值与单位全标准化。
数据⾼效批量插⼊:为优化数据库导⼊效率,解决单条插⼊耗时过⻓问题,通过
列表缓存待插⼊数据,利⽤循环迭代完成数据预处理,并采⽤批量提交⽅式实现⾼效
数据持久化。
勾稽关系校验严格:资产负债表、利润表、现⾦流量表需严格符合会计恒等式,
建⽴多维度、全表间的数据校验规则。
数据加载与基础清洗
批量读取 PDF 财报⽂本与表格内容,剔除空⻚、空⾏、乱码与⽆效字符,统⼀编
码为 UTF-8,仅保留指标名称、对应数值、报告期三类核⼼有效信息。
数值与单位标准化
通过 parse_number 函数完成全量数据标准化:移除千分位逗号、空格、⽆效符
号;百分⽐数值⾃动转为标准⼩数;全库财务数据统⼀单位为万元。
异常值与缺失值处理
核⼼财务指标缺失直接标记为空值,不强⾏填充避免数据失真;异常波动数据采
⽤ 3σ 原则识别并标记警告;重复数据按 “股票代码 + 报告期 + 指标名称” 唯⼀键去重。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论