全本地AI图片理解流水线（Image-See）_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

立项原因：当前国产大模型多模态看图需要云端付费（如 GPT-4V、Gemini），且存在数据隐私风险。团队在使用纯文本模型（如 DeepSeek、Qwen）进行 AI 辅助开发时，模型无法直接"看到"图片内容，导致工作中需要人工描述图片再转述给 AI，效率低下。

解决什么问题：为纯文本模型提供"看图"能力——用户给出图片路径，系统自动完成 OCR 文字提取、视觉描述、色块定位分析，并通过 AI 交叉验证输出结构化理解结果。全程本地运行，零云端费用，数据不出本机。

业务背景：适用于以下场景：开发者需要 AI 辅助分析界面截图和设计稿、内容创作者需要快速提取图文信息、数据标注团队需要自动化图片预处理、企业内部需要保护敏感图片不外传的 AI 分析场景。

功能介绍

项目由四大模块组成：①像素分析模块——解析图片分辨率、风格、精细度、亮度饱和度，输出25×25色块矩阵用于色彩定位；②OCR文字识别模块——三级降级链（RapidOCR→EasyOCR→PaddleOCR），自动检测图中文字并返回精确坐标和置信度；③视觉描述模块——调用本地小模型生成自然语言看图描述，识别人物、物体、场景、情绪；④AI交叉验证模块——将OCR、视觉、色块三路独立结果汇总，通过大模型做三角验证，剔除矛盾项，输出最终结构化分析报告。全流程本地运行，零云端调用。

项目实现

我负责的任务：全栈独立开发。设计四大模块独立产出的流水线架构，编写 Python 脚本实现 OCR 三级降级链、25×25 色块网格算法、三层色彩分析（聚类摘要/锚点地标/原始矩阵），集成 Ollama 调用本地视觉模型，用 Qwen 大模型做末尾交叉验证。设计输出 JSON 结构供 AI 程序化消费。

技术栈： Python、RapidOCR / EasyOCR / PaddleOCR（三级降级）、Ollama + minicpm-v（视觉）+ Qwen（验证）、OpenCV + NumPy（色块分析）、ONNX Runtime（推理加速）。

架构亮点： OCR/视觉/色块三条生产线完全独立并行，互不污染中间结果，只在末端由 Qwen 做三角验证——一处故障不影响另外两处正常输出。三级引擎自动降级保证容错。

难点： 1）OCR 引擎在国内网络环境下的安装和首跑模型下载困难，最终选定 RapidOCR 作为 ONNX 主力；2）色块数据从 625 个原始 HEX 值压缩为人类可读的聚类总结，同时保留精确定位能力给下游 AI 消费；3）小视觉模型对复杂场景的描述准确度波动大，通过交叉验证 schema 可自动标记低置信度输出。