虚拟数字人引擎（TTS + Talking-Face + Avatar）

技术信息

作品详情

行业场景

短视频与电商直播场景下，对虚拟数字人内容生产存在大批量、低成本、可定制的强需求。需要一个可承载日均 10 万 + 语音任务与视频生成的工程化中台，支持多语言 TTS 合成、基于单图驱动的 Talking-Face 视频生成，以及可配置化的虚拟人形象与动作编辑能力，并提供云存储、版权保护、版本管理等基础能力。

功能介绍

系统由三大引擎构成：1）TTS 引擎，包含文本前端（分词 / TN / 韵律分析）、BERT+LSTM 韵律预测、混合语言 G2P 转换、声学模型与声码器，支持中英混文本，提供流式 / 非流式 gRPC + WebSocket 双接口；2）Talking-Face 引擎，基于单张图片 + 语音生成带声视频；3）Avatar Editor 编辑器，含关键帧引擎、实时流媒体调度、模型加载、动作表情编辑、语音驱动动画；并集成 FFmpeg 多线程视频任务、盲水印算法、Azure Blob / MinIO 云存储与权限管理，单元测试覆盖引擎、流控及服务接口。

项目实现

作为 C++ 算法工程化工程师，负责：1）TTS 文本前端模块开发（分词 / TN / 韵律分析），实现 BERT+LSTM 韵律预测模型，优化中文断句准确性；2）混合语言 G2P 转换系统开发，支持中英混文本音素转换；3）维护 gRPC 与 WebSocket 服务接口，支持流式 / 非流式合成请求；4）Avatar Editor 的关键帧引擎与实时流媒体调度模块开发；5）FFmpeg 多线程视频任务封装、盲水印算法、Azure Blob / MinIO 云存储接口与 gRPC 通信搭建；6）模块化架构与任务调度体系设计，优化内存与线程使用，并编写单元测试保障稳定性与可扩展性。技术栈：C++ / Python / FFmpeg / OpenCV / gRPC / RabbitMQ / Redis / MinIO / Azure SDK。