基于FastPitch+Bert模型从0到1训练出来的带有感情专属tts模型
整个模型训练流程
1.修改默认nemo的fastpitch模型,加上bert特征
2.预处理需要训练的语音数据,视频分离出音频数据,转换为采样率22050的wav文件,通过其他模型切割为15秒内的文件
3.通过阿里语音转文本模型对进行标注,将所有文件转换为nemo的训练集结构
4.训练fastpitch模型,4090训练10小时音频数据集大概300epoch
5.提取fastpitch训练结果,对预训练的HIFIGAN模型进行微调,大概训练300epoch
6.编写合成语音脚本,生成结果,具体结果看附件,
训练合成结果试听http://file.finelink.ltd/dev/demo.wav