背景:针对特定桌面端应用(如老旧工业软件、无接口的内部系统)缺乏自动化手段的问题。传统自动化脚本依赖固定坐标,一旦界面分辨率或布局变化就会失效。
目标:开发一款“视觉感知 + 物理执行”的智能辅助工具。该工具不读取内存、不修改数据,仅通过实时分析屏幕画面来判断当前状态,并模拟键鼠操作完成既定任务,实现“所看即所得”的自动化。
点击空白处退出提示
背景:针对特定桌面端应用(如老旧工业软件、无接口的内部系统)缺乏自动化手段的问题。传统自动化脚本依赖固定坐标,一旦界面分辨率或布局变化就会失效。
目标:开发一款“视觉感知 + 物理执行”的智能辅助工具。该工具不读取内存、不修改数据,仅通过实时分析屏幕画面来判断当前状态,并模拟键鼠操作完成既定任务,实现“所看即所得”的自动化。
本工具实现了从“视觉感知”到“动作执行”的闭环:
视觉感知(眼睛):后台实时截取屏幕画面,利用 YOLO 模型识别关键 UI 元素(如“有异常事物”、“可以通行的区域”、“某特定地点”)。
决策响应(大脑):根据识别结果触发预设动作。例如:当识别到“补给品图标”出现时,触发“拾取”操作;当识别到“错误提示框”时,触发“关闭”操作。
物理执行(手):基于 PyAutoGUI 模拟真实的鼠标移动、点击和键盘输入,绕过系统底层钩子检测,行为拟真度高。
控制面板:基于 python 开发的桌面端应用,映射键位、重启机制、特定时间流程,原则上根据机型电脑配置模拟器等进行优雅降级
作为核心开发者,我负责前端控制界面与视觉-操作调度逻辑的实现:
前端架构:使用 python 桌面应用,设计了“视觉区域选区”、“键位映射配置”及“实时日志监控”模块。
视觉内核:使用 Python 处理屏幕流,集成 OpenCV 与 YOLO 进行目标检测,确保毫秒级响应速度。
调度中枢:基于 Flask 搭建 BFF 层,连接前端配置与后端执行器。核心逻辑为:监听画面变化 -> 匹配特征 -> 触发键鼠事件。
安全合规:严格遵循“纯视觉交互”原则。工具仅像人类一样“看屏幕”和“操作键鼠”,无任何内存读写(ReadProcessMemory)或代码注入行为,确保使用过程安全、无封号风险。




评论