送货单 VLM 智能识别与 Excel 导出_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

供应商纸质/拍照送货单批量录入 ERP
档口发货清单数字化：款号、颜色、数量、单价等字段结构化
仓库收货对账前的「先 OCR/VLM、再人工抽检」环节

功能介绍

递归扫描图片目录，按 page_id 并发调用 VLM
图像预处理：EXIF 转正、PULC 0/90/180/270° 转正、透视矫正、长边缩放、色调模式
单次 VLM 调用输出业务 JSON，解析后写入 pages/{id}.json 与 pages.jsonl
按 delivery.merge_key 合并多页，导出中文工作表 Excel（全量明细、按款号汇总、按款号分色汇总）
GUI：运行选项与 configs/default.yaml 双向同步，开始/进度/日志

项目实现

针对客户「拍照送货单、手工录 Excel 太慢」的痛点，做了从选图到出表的完整工具，业务人员不用写命令也能用。
自己调图像预处理链路：处理手机拍照方向不对、纸张透视歪、光线发灰等问题，尽量让模型少看错行。
设计并迭代 VLM 提示词，让模型只吐表格 JSON，再写解析和合并逻辑，自动汇总成「全量明细 / 按款号 / 按款号分色」三张中文 sheet。
做了多图并发识别，几十张送货单可以一起跑，同时保证 manifest 页序不乱。
桌面 GUI 里勾选预处理选项会实时写回配置文件，下次打开还是上次的设置；支持 PyInstaller 打包成 exe 给现场用。