短视频与电商直播场景下,对虚拟数字人内容生产存在大批量、低成本、可定制的强需求。需要一个可承载日均 10 万 + 语音任务与视频生成的工程化中台,支持多语言 TTS 合成、基于单图驱动的 Talking-Face 视频生成,以及可配置化的虚拟人形象与动作编辑能力,并提供云存储、版权保护、版本管理等基础能力。
点击空白处退出提示
短视频与电商直播场景下,对虚拟数字人内容生产存在大批量、低成本、可定制的强需求。需要一个可承载日均 10 万 + 语音任务与视频生成的工程化中台,支持多语言 TTS 合成、基于单图驱动的 Talking-Face 视频生成,以及可配置化的虚拟人形象与动作编辑能力,并提供云存储、版权保护、版本管理等基础能力。
系统由三大引擎构成:1)TTS 引擎,包含文本前端(分词 / TN / 韵律分析)、BERT+LSTM 韵律预测、混合语言 G2P 转换、声学模型与声码器,支持中英混文本,提供流式 / 非流式 gRPC + WebSocket 双接口;2)Talking-Face 引擎,基于单张图片 + 语音生成带声视频;3)Avatar Editor 编辑器,含关键帧引擎、实时流媒体调度、模型加载、动作表情编辑、语音驱动动画;并集成 FFmpeg 多线程视频任务、盲水印算法、Azure Blob / MinIO 云存储与权限管理,单元测试覆盖引擎、流控及服务接口。
作为 C++ 算法工程化工程师,负责:1)TTS 文本前端模块开发(分词 / TN / 韵律分析),实现 BERT+LSTM 韵律预测模型,优化中文断句准确性;2)混合语言 G2P 转换系统开发,支持中英混文本音素转换;3)维护 gRPC 与 WebSocket 服务接口,支持流式 / 非流式合成请求;4)Avatar Editor 的关键帧引擎与实时流媒体调度模块开发;5)FFmpeg 多线程视频任务封装、盲水印算法、Azure Blob / MinIO 云存储接口与 gRPC 通信搭建;6)模块化架构与任务调度体系设计,优化内存与线程使用,并编写单元测试保障稳定性与可扩展性。技术栈:C++ / Python / FFmpeg / OpenCV / gRPC / RabbitMQ / Redis / MinIO / Azure SDK。



评论