蚂蚁灵光(Lingguang AI) 是蚂蚁集团于 2025 年 11 月 18 日 正式发布的 全模态通用 AI 助手 App(支持安卓 /iOS)。核心定位:一句话,30 秒生成可交互小应用,主打 “让复杂变简单”,是从 “AI 问答” 升级到 “AI 执行 / 创造” 的新一代生产力工具。
点击空白处退出提示
蚂蚁灵光(Lingguang AI) 是蚂蚁集团于 2025 年 11 月 18 日 正式发布的 全模态通用 AI 助手 App(支持安卓 /iOS)。核心定位:一句话,30 秒生成可交互小应用,主打 “让复杂变简单”,是从 “AI 问答” 升级到 “AI 执行 / 创造” 的新一代生产力工具。
1.参与多种 AI Agent 场景的方案设计与落地,包括语音交互式 Agent、轻应用 TTS 长卡流式播报 Agent、图生图/图生视频创作 Agent、文生音乐 Agent、闪应用类 Agent 等。
2.主对话支持语音、文字、图片等多模态交互,设计了一个基于事件驱动的状态机,对用户完整交互过程进行状态切换和编排,为 Prompt / Agent 的行为控制提供清晰的上下文状态。
3.负责多类 AI 场景下 Prompt 的设计与迭代:包括对话意图澄清、状态机驱动的多轮对话 Prompt 设计、工具调用说明(Tool Calling 说明文档)、异常自恢复策略等,提升大模型在语音/多模态场景下的稳定性与可控性。
4.参与内部 Skill(技能)体系接入与开发:
● 基于 WebView + JSBridge + 原生能力,为图生图、图生视频、文生音乐等场景封装可复用 Skill 能力;
● 设计并实现面向大模型的 Skill 接口协议(输入/输出结构、错误码、重试策略),支持多个业务复用同一套语音/音频/多媒体基础能力;
● 在灵光 App 内部搭建语音相关 Skill 能力集(ASR、TTS、音乐播放等)作为通用「语音 Skill 中台」,支撑后续新 Agent / 新场景的快速接入。
1. 设计并落地主对话状态机架构,对外暴露清晰的事件接口,既保证全局状态一致性,又显著降低各业务的接入成本;结合 Prompt 设计,使 Agent 能够基于状态做出更稳定的逻辑分支。
2.中心化的播放器设计,提供了多种类别音频的调用能力、在文生音乐,轻应用、闪应用多个业务场景下支撑。且未来增加新的类别,可以快速接入,不会相互影响
3.从 0-1 完成 ASR SDK、TTS SDK 的业务设计与实现,并将其沉淀为供多个 Agent / Skill 复用的语音基础能力;通过 Prompt + Skill 的组合,让业务方可以以「配置 + 简单调用」的方式快速搭建语音类 AI 应用。
4.灵光闪应用业务中,和服务端同学协同开发,部署语音识别类助手和故事播报类助手应用的Agent 开发,设计工具调用接口设计端侧ASR 和TTS 能力,同时设计自动评测模块给固定测试用例集合,
● 判断回答是否满足正则/断言规则。
● 用数据驱动看哪些场景经常出错、针对性改 prompt / 补示例 / 增加工具。




评论