云手机智能体产品系统

我要开发同款
尹子琦2026年04月23日
17阅读

技术信息

语言技术
PythonFlaskDockerTensorFlowHTTP
系统类型
Linux
行业分类
人工智能

作品详情

行业场景

云手机场景下,用户需要在不同 App 里完成订外卖、订机票、查信息等操作,流程割裂、学习成本高。项目目标是做一个 类“智谱牛牛”的多 Agent 系统,把手机里的每个 App 通过 GUI Agent 封装成可调用能力,用户只需要一句自然语言指令,系统自动完成整套操作。

功能介绍

系统可基于历史对话上下文、用户画像及实时输入,实现用户意图自动理解与复杂任务拆解,并通过自研调度中心将子任务分发至多智能体协同执行,支持自动完成机票预订、外卖点餐、行程规划等端到端复杂生活服务,实现全流程无人化执行与结果反馈。

项目实现

1、我承担的是 核心算法 + Agent 架构设计,主要包括四块:
意图与实体识别模型设计与训练
多 Agent 架构与调度逻辑设计
GUI Agent 的数据构建与推理链路
整体效果评估与验收指标设计

2、技术方案与技术栈
①意图与实体识别
模型:Qwen2.5-14B
方式:SFT 微调
数据:
来源于历史“通通智能助手”的真实用户对话
人工梳理意图体系(如订外卖、订机票、查天气等)
构造实体槽位(地点、时间、品类、航班信息等)
关键点:
将传统 NLU 拆成 “意图 → 子 Agent 路由”
输出结构化 JSON,直接供调度器使用

②多 Agent 架构
架构设计:
主管 Agent(Planner):负责任务拆解、顺序规划
子 Agent:按意图划分(外卖、出行、信息查询、GUI Agent 等)
实现方式:
基于 Dify 工作流 做基础编排
自研轻量调度器,负责:
Agent 选择
参数透传
失败回退与重试
③GUI Agent 实现
视觉输入:
云手机真实截图(不同分辨率、不同 App 状态)
文本输入:
预制操作模板 + 槽位占位
从用户对话中自动填槽
执行链路:
识别当前页面 → 决策下一步操作(点击 / 输入 / 滑动)
难点处理:
页面不确定性 → 引入多步确认
操作失败 → 回退到 Planner 重新规划
④关键技术栈总结
模型:Qwen2.5-14B
微调:SFT(LoRA)
框架:Dify + 自研调度
能力:Agent、GUI Agent、多模态、结构化输出

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论