基于 RPA 与大模型的微信智能伴聊机器人

技术信息

语言技术
Python、Vue系统类型
Web行业分类
人工智能、社交开源地址
https://github.com/NanAnNuo/WeChat_Bot.git授权协议
LGPL许可演示地址
https://github.com/NanAnNuo/WeChat_Bot.git

行业场景

当前私域运营、客户服务、个人智能伴聊等场景中，微信作为国内主流即时通讯工具，存在大量自动化回复、智能对话的需求；市面现有微信机器人多采用协议 Hook 方式实现，存在极高的账号封号风险，同时多数产品仅支持纯文本对话，无法解析图片内的文本内容，多模态处理能力弱，且无法实现运行状态的可视化管控与动态配置调整。本项目立项旨在解决上述行业痛点，打造一款低封号风险、高稳定性、支持多模态解析、可可视化管控的微信智能伴聊机器人，满足私域运营、智能客服、个人伴聊等多元场景的自动化对话需求。

功能介绍

本项目包含四大核心功能模块，各模块功能如下：1.RPA 底层自动化引擎模块，基于 UIAutomation 框架与窗口句柄控制，实现微信客户端的无痕绑定、消息实时监听、剪贴板安全读写、模拟人工操作自动回复，全程不修改微信客户端底层协议，彻底规避账号风控风险；2. 大模型对话管理模块，对接 Gemini LLM API，设计带窗口滑动的本地上下文记忆流，实现对话历史的持久化存储，保障多轮对话的上下文连贯性，可适配不同场景的对话风格与回复要求；3.OCR 图像解析模块，自研 ocr_handler_improved 优化模块，支持微信图片消息的自动识别、预处理与文本提取，可精准解析图片内的复杂文本内容，实现多模态消息的智能理解与回复；4.Web 可视化中控模块，基于 Flask 与原生 JS/CSS 开发 Web 后台控制台，支持系统运行状态实时监控、运行日志可视化溯源、对话参数动态热更新，无需重启服务即可完成配置调整，大幅提升系统运维效率。

项目实现

本项目为本人独立全栈开发完成，全程负责项目需求分析、架构设计、代码开发、迭代优化全流程工作，完成所有功能模块的设计与落地。项目采用分层解耦的整体架构，以 Python 为核心开发语言，基于 UIAutomation 框架搭建 RPA 底层自动化引擎，对接 Gemini 大模型 API 实现智能对话能力，基于 Flask 框架搭建 Web 后台服务，自研优化 OCR 处理模块实现图像文本解析。项目核心亮点在于采用 RPA 方案替代传统 Hook 方案，实现了零封号风险的长期稳定运行，同时自研优化的 OCR 模块实现了高准确率的图片内容解析，Web 中控端的参数热更能力大幅提升了系统的运维效率。开发过程中核心难点为微信客户端的风控封号问题，以及复杂场景下图片文本识别准确率不足的问题；针对封号风险问题，完全放弃高风险的协议 Hook 方案，采用 UIAutomation 框架实现 RPA 级模拟人工操作，通过窗口句柄控制实现消息监听与回复，全程不触碰微信底层数据，彻底规避平台风控，实现系统 7*24 小时零封号稳定运行；针对图片文本识别准确率不足的问题，自研迭代 OCR 处理模块，新增图像降噪、对比度增强、倾斜校正等预处理流程，优化模型对复杂背景、模糊文本的适配能力。