AI艺术语音生成系统TTS (刘宝瑞《官场斗》续集)产品系统

我要开发同款
Liberty2026年05月20日
11阅读

技术信息

语言技术
PythonTorch
系统类型
算法模型Web
行业分类
音视频多媒体内容平台

作品详情

行业场景

针对传统艺术(相声)极高的韵律要求,深度改造 F5-TTS 架构,构建了一套多情绪/风格合成系统。成功实现对相声大师刘宝瑞音色的高保真克隆,并应用于《官场斗》续集文本的自动化语音生成。续集已发布在多平台。例如抖音:https://v.douyin.com/i52pFyPR3bw/

功能介绍

构建了一套多情绪/风格合成系统。成功实现对相声大师刘宝瑞音色的高保真克隆,并应用于《官场斗》续集文本的自动化语音生成。续集大概有30集,每集20分钟。推出后得到了广泛好评。

项目实现

 可控情绪/风格架构:深度改造 F5-TTS, 重构风格控制流程,设计情绪向量(Style Embedding)并接入 AdaLayerNorm 调制层,实现情绪与角色风格的可控生成。区别于常规零样本语音克隆,自主设计并标注 11 类细粒度情绪/人物标签,通过条件化训练学习不同语境下的情绪表达,缓解非自回归 TTS 在长文本生成中的情绪单一与风格漂移问题。
 三阶段微调训练: 设计创新Lora微调训练方法,利用分步迭代策略,完成从“基础音色、情感提取到融合打磨”的三阶段演进,实现了极高的人声还原度和艺术表现力。
 自动化数据管线: 集成语音识别技术(Whisper和MFA)与文本情绪标记,实现对3万多字的3小时原始音频素材的按情绪标签的自动对齐和剪裁;并利用声学特征识别并自动去除笑声,构建了高质量的语音训练集。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论