全本地AI图片理解流水线(Image-See)产品系统Vibe Coding

我要开发同款
proginn23030607392026年06月13日
11阅读

技术信息

语言技术
Python
系统类型
Windows
行业分类
人工智能脚本插件

作品详情

行业场景

立项原因: 当前国产大模型多模态看图需要云端付费(如 GPT-4V、Gemini),且存在数据隐私风险。团队在使用纯文本模型(如 DeepSeek、Qwen)进行 AI 辅助开发时,模型无法直接"看到"图片内容,导致工作中需要人工描述图片再转述给 AI,效率低下。

解决什么问题: 为纯文本模型提供"看图"能力——用户给出图片路径,系统自动完成 OCR 文字提取、视觉描述、色块定位分析,并通过 AI 交叉验证输出结构化理解结果。全程本地运行,零云端费用,数据不出本机。

业务背景: 适用于以下场景:开发者需要 AI 辅助分析界面截图和设计稿、内容创作者需要快速提取图文信息、数据标注团队需要自动化图片预处理、企业内部需要保护敏感图片不外传的 AI 分析场景。

功能介绍

项目由四大模块组成:①像素分析模块——解析图片分辨率、风格、精细度、亮度饱和度,输出25×25色块矩阵用于色彩定位;②OCR文字识别模块——三级降级链(RapidOCR→EasyOCR→PaddleOCR),自动检测图中文字并返回精确坐标和置信度;③视觉描述模块——调用本地小模型生成自然语言看图描述,识别人物、物体、场景、情绪;④AI交叉验证模块——将OCR、视觉、色块三路独立结果汇总,通过大模型做三角验证,剔除矛盾项,输出最终结构化分析报告。全流程本地运行,零云端调用。

项目实现

我负责的任务: 全栈独立开发。设计四大模块独立产出的流水线架构,编写 Python 脚本实现 OCR 三级降级链、25×25 色块网格算法、三层色彩分析(聚类摘要/锚点地标/原始矩阵),集成 Ollama 调用本地视觉模型,用 Qwen 大模型做末尾交叉验证。设计输出 JSON 结构供 AI 程序化消费。

技术栈: Python、RapidOCR / EasyOCR / PaddleOCR(三级降级)、Ollama + minicpm-v(视觉)+ Qwen(验证)、OpenCV + NumPy(色块分析)、ONNX Runtime(推理加速)。

架构亮点: OCR/视觉/色块三条生产线完全独立并行,互不污染中间结果,只在末端由 Qwen 做三角验证——一处故障不影响另外两处正常输出。三级引擎自动降级保证容错。

难点: 1)OCR 引擎在国内网络环境下的安装和首跑模型下载困难,最终选定 RapidOCR 作为 ONNX 主力;2)色块数据从 625 个原始 HEX 值压缩为人类可读的聚类总结,同时保留精确定位能力给下游 AI 消费;3)小视觉模型对复杂场景的描述准确度波动大,通过交叉验证 schema 可自动标记低置信度输出。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论