AI艺术语音生成系统TTS (刘宝瑞《官场斗》续集)

技术信息

语言技术
Python、Torch系统类型
算法模型、Web行业分类
音视频多媒体、内容平台

作品详情

行业场景

针对传统艺术（相声）极高的韵律要求，深度改造 F5-TTS 架构，构建了一套多情绪/风格合成系统。成功实现对相声大师刘宝瑞音色的高保真克隆，并应用于《官场斗》续集文本的自动化语音生成。续集已发布在多平台。例如抖音：https://v.douyin.com/i52pFyPR3bw/

功能介绍

构建了一套多情绪/风格合成系统。成功实现对相声大师刘宝瑞音色的高保真克隆，并应用于《官场斗》续集文本的自动化语音生成。续集大概有30集，每集20分钟。推出后得到了广泛好评。

项目实现

 可控情绪/风格架构：深度改造 F5-TTS，重构风格控制流程，设计情绪向量（Style Embedding）并接入 AdaLayerNorm 调制层，实现情绪与角色风格的可控生成。区别于常规零样本语音克隆，自主设计并标注 11 类细粒度情绪/人物标签，通过条件化训练学习不同语境下的情绪表达，缓解非自回归 TTS 在长文本生成中的情绪单一与风格漂移问题。
 三阶段微调训练：设计创新Lora微调训练方法，利用分步迭代策略，完成从“基础音色、情感提取到融合打磨”的三阶段演进，实现了极高的人声还原度和艺术表现力。
 自动化数据管线：集成语音识别技术（Whisper和MFA）与文本情绪标记，实现对3万多字的3小时原始音频素材的按情绪标签的自动对齐和剪裁；并利用声学特征识别并自动去除笑声，构建了高质量的语音训练集。