供应商纸质/拍照送货单批量录入 ERP
档口发货清单数字化:款号、颜色、数量、单价等字段结构化
仓库收货对账前的「先 OCR/VLM、再人工抽检」环节
点击空白处退出提示
供应商纸质/拍照送货单批量录入 ERP
档口发货清单数字化:款号、颜色、数量、单价等字段结构化
仓库收货对账前的「先 OCR/VLM、再人工抽检」环节
递归扫描图片目录,按 page_id 并发调用 VLM
图像预处理:EXIF 转正、PULC 0/90/180/270° 转正、透视矫正、长边缩放、色调模式
单次 VLM 调用输出业务 JSON,解析后写入 pages/{id}.json 与 pages.jsonl
按 delivery.merge_key 合并多页,导出中文工作表 Excel(全量明细、按款号汇总、按款号分色汇总)
GUI:运行选项与 configs/default.yaml 双向同步,开始/进度/日志
针对客户「拍照送货单、手工录 Excel 太慢」的痛点,做了从选图到出表的完整工具,业务人员不用写命令也能用。
自己调图像预处理链路:处理手机拍照方向不对、纸张透视歪、光线发灰等问题,尽量让模型少看错行。
设计并迭代 VLM 提示词,让模型只吐表格 JSON,再写解析和合并逻辑,自动汇总成「全量明细 / 按款号 / 按款号分色」三张中文 sheet。
做了多图并发识别,几十张送货单可以一起跑,同时保证 manifest 页序不乱。
桌面 GUI 里勾选预处理选项会实时写回配置文件,下次打开还是上次的设置;支持 PyInstaller 打包成 exe 给现场用。



评论