云手机智能体_系统开发案例-程序员客栈

语言技术
Python、Flask、Docker、TensorFlow、HTTP系统类型
Linux行业分类
人工智能

云手机场景下，用户需要在不同 App 里完成订外卖、订机票、查信息等操作，流程割裂、学习成本高。项目目标是做一个类“智谱牛牛”的多 Agent 系统，把手机里的每个 App 通过 GUI Agent 封装成可调用能力，用户只需要一句自然语言指令，系统自动完成整套操作。

系统可基于历史对话上下文、用户画像及实时输入，实现用户意图自动理解与复杂任务拆解，并通过自研调度中心将子任务分发至多智能体协同执行，支持自动完成机票预订、外卖点餐、行程规划等端到端复杂生活服务，实现全流程无人化执行与结果反馈。

1、我承担的是核心算法 + Agent 架构设计，主要包括四块：
意图与实体识别模型设计与训练
多 Agent 架构与调度逻辑设计
GUI Agent 的数据构建与推理链路
整体效果评估与验收指标设计

2、技术方案与技术栈
①意图与实体识别
模型：Qwen2.5-14B
方式：SFT 微调
数据：
来源于历史“通通智能助手”的真实用户对话
人工梳理意图体系（如订外卖、订机票、查天气等）
构造实体槽位（地点、时间、品类、航班信息等）
关键点：
将传统 NLU 拆成 “意图 → 子 Agent 路由”
输出结构化 JSON，直接供调度器使用

②多 Agent 架构
架构设计：
主管 Agent（Planner）：负责任务拆解、顺序规划
子 Agent：按意图划分（外卖、出行、信息查询、GUI Agent 等）
实现方式：
基于 Dify 工作流做基础编排
自研轻量调度器，负责：
Agent 选择
参数透传
失败回退与重试
③GUI Agent 实现
视觉输入：
云手机真实截图（不同分辨率、不同 App 状态）
文本输入：
预制操作模板 + 槽位占位
从用户对话中自动填槽
执行链路：
识别当前页面 → 决策下一步操作（点击 / 输入 / 滑动）
难点处理：
页面不确定性 → 引入多步确认
操作失败 → 回退到 Planner 重新规划
④关键技术栈总结
模型：Qwen2.5-14B
微调：SFT（LoRA）
框架：Dify + 自研调度
能力：Agent、GUI Agent、多模态、结构化输出

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

云手机智能体产品系统

技术信息

作品详情

行业场景

功能介绍

项目实现

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐