针对传统艺术(相声)极高的韵律要求,深度改造 F5-TTS 架构,构建了一套多情绪/风格合成系统。成功实现对相声大师刘宝瑞音色的高保真克隆,并应用于《官场斗》续集文本的自动化语音生成。续集已发布在多平台。例如抖音:https://v.douyin.com/i52pFyPR3bw/
点击空白处退出提示
针对传统艺术(相声)极高的韵律要求,深度改造 F5-TTS 架构,构建了一套多情绪/风格合成系统。成功实现对相声大师刘宝瑞音色的高保真克隆,并应用于《官场斗》续集文本的自动化语音生成。续集已发布在多平台。例如抖音:https://v.douyin.com/i52pFyPR3bw/
构建了一套多情绪/风格合成系统。成功实现对相声大师刘宝瑞音色的高保真克隆,并应用于《官场斗》续集文本的自动化语音生成。续集大概有30集,每集20分钟。推出后得到了广泛好评。
可控情绪/风格架构:深度改造 F5-TTS, 重构风格控制流程,设计情绪向量(Style Embedding)并接入 AdaLayerNorm 调制层,实现情绪与角色风格的可控生成。区别于常规零样本语音克隆,自主设计并标注 11 类细粒度情绪/人物标签,通过条件化训练学习不同语境下的情绪表达,缓解非自回归 TTS 在长文本生成中的情绪单一与风格漂移问题。
三阶段微调训练: 设计创新Lora微调训练方法,利用分步迭代策略,完成从“基础音色、情感提取到融合打磨”的三阶段演进,实现了极高的人声还原度和艺术表现力。
自动化数据管线: 集成语音识别技术(Whisper和MFA)与文本情绪标记,实现对3万多字的3小时原始音频素材的按情绪标签的自动对齐和剪裁;并利用声学特征识别并自动去除笑声,构建了高质量的语音训练集。





评论