天外来电 - 全双工实时AI语音通话系统_系统开发案例-程序员客栈

技术信息

语言技术
Python、Android、React、MySQL、Linux系统类型
Android应用、Web、iOS应用行业分类
人工智能、音视频多媒体

作品详情

行业场景

立项原因：
人生中总有一些人，因为各种原因无法再联系——可能是已经离开的亲人、失去联系的朋友、或者再也见不到的人。他们留下了聊天记录、语音、回忆，但用户再也无法与他们对话，许多心里话来不及说出。本项目旨在打造真人形象复刻的语音AI对话系统，让用户能够与"失去的人"再次通话，说出曾经没说完的话，表达心里的真实感受。通过完整复刻真人的说话细节、聊天形式、声音语速、称呼方言、情感表达，达到如同与真人对话一样的沉浸体验。

行业场景：面向有情感陪伴和情感表达需求的用户。
典型场景包括：
（1）与已故亲人对话，从聊天记录和语音中复刻亲人形象，说出没来得及说的话，获得情感慰藉；
（2）与失联朋友对话，还原曾经亲密的聊天方式和情感连接；
（3）与离开的人对话，表达心中的遗憾和思念。项目实现完整的真人形象复刻，包括说话风格、声音、称呼、方言、情感表达等所有细节，并具备极强的记忆能力，能够快速回忆之前的通话内容和上传的聊天记录，提供长期记忆支持，让对话如同真实发生。

功能介绍

天外来电是一个完全自托管的全双工实时语音AI对话系统，支持实时打断、语音克隆、角色定制。核心功能包括：
（1）语音对话，用户可随时与角色零延迟对话，支持实时打断说话，接近0秒延迟；
（2）对话记忆，每个角色有极强的对话记忆能力，对于自定义角色，上传的所有聊天记录都可实现长期记忆；
（3）预设角色，项目包含多个系列预设角色，例如16种MBTI预设角色；
（4）形象复刻，根据预设信息或者聊天记录可实现高真度人物形象复刻；
（5）语音克隆，上传3秒音频样本即可快速完美克隆音色；
（6）通话记录，所有通话数据留存，系统实现零数据泄露，所有服数据保存在本地。

项目实现

负责任务：全栈开发，包括React Native移动端App、FastAPI后端服务、LiveKit Agent Worker核心逻辑、pVAD/Turn-Detector/AEC等语音处理模块集成。

技术栈：React Native + Expo + TypeScript（移动端）、FastAPI + PostgreSQL + Redis（后端）、LiveKit + WebRTC（实时通信）、Qwen3-ASR（ASR）、Qwen3-TTS（TTS）、Ollama/qwen2.5（LLM）、ONNX Runtime + PyTorch（模型推理）。

架构设计：基于LiveKit Agent框架构建全双工实时语音对话系统，采用事件驱动架构处理语音流。音频流经WebRTC传输至服务端，通过pVAD检测语音活动，ASR转文字后由LLM生成回复，TTS流式合成音频返回客户端。

实现亮点：
（1）pVAD个性化语音活动检测，使用ECAPA-TDNN提取说话人嵌入，ONNX模型实时推理。