ERes2Net-Large说话人确认-中文-CNCeleb-16k

开源地址
https://modelscope.cn/models/iic/speech_eres2net_large_sv_zh-cn_cnceleb_16k授权协议
Apache License 2.0

ERes2Net-Large 说话人识别模型

ERes2Net模型结合全局特征和局部特征，从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号；全局特征融合使用不同层级输出的不同尺度声学特征聚合全局信号。ERes2Net-large是参数量较大的ERes2Net模型，可实现快速训练和推理，在参数量为22.46M的条件下，在开源中文测试集CN-Celeb中，识别性能EER=6.17%。

模型简述

ERes2Net局部融合如下图黄色部分所示，使用Attetiaal feature fusio阶梯式融合各分组特征来增强局部信息连接，获取更细粒度特征；全局融合如下图绿色部分所示，通过自底向上的全局特征融合来增强说话人信息。

更详细的信息见

ERes2Net论文：A Ehaced Res2Net with Local ad Global Feature Fusio for Speaker Verificatio
github项目地址：3D-Speaker

训练数据

本模型使用开源数据集CN-Celeb数据集进行训练，包含约1136个说话人，可以对16k采样率的中文音频进行识别。

模型效果评估

在CN-Celeb测试集中EER评测结果如下：

Model	Params	EER(%)	MiDCF
ECAPA-TDNN	20.8M	8.01	0.445
ERes2Net-large	22.46M	6.17	0.372

在线体验

在页面右侧，可以在“在线体验”栏内看到我们预先准备好的示例音频，点击播放按钮可以试听，点击“执行测试”按钮，会在下方“测试结果”栏中显示相似度得分(范围为[-1,1])和是否判断为同一个人。如果您想要测试自己的音频，可点“更换音频”按钮，选择上传或录制一段音频，完成后点击执行测试，识别内容将会在测试结果栏中显示。

在Notebook中体验

from modelscope.pipelies import pipelie
sv_piplie = pipelie(
    task='speaker-verificatio',
    model='damo/speech_eres2et_large_sv_zh-c_cceleb_16k',
    model_revisio='v1.0.1'
)
speaker1_a_wav = 'https://modelscope.c/api/v1/models/damo/speech_campplus_sv_zh-c_16k-commo/repo?Revisio=master&FilePath=examples/speaker1_a_c_16k.wav'
speaker1_b_wav = 'https://modelscope.c/api/v1/models/damo/speech_campplus_sv_zh-c_16k-commo/repo?Revisio=master&FilePath=examples/speaker1_b_c_16k.wav'
speaker2_a_wav = 'https://modelscope.c/api/v1/models/damo/speech_campplus_sv_zh-c_16k-commo/repo?Revisio=master&FilePath=examples/speaker2_a_c_16k.wav'
# 相同说话人语音
result = sv_piplie([speaker1_a_wav, speaker1_b_wav])
prit(result)
# 不同说话人语音
result = sv_piplie([speaker1_a_wav, speaker2_a_wav])
prit(result)
# 可以自定义得分阈值来进行识别
result = sv_piplie([speaker1_a_wav, speaker2_a_wav], thr=0.371)
prit(result)

训练和测试自己的ERes2Net-Large模型

本项目已在3D-Speaker开源了训练、测试和推理代码，使用者可按下面方式下载安装使用：

git cloe https://github.com/alibaba-damo-academy/3D-Speaker.git && cd 3D-Speaker
coda create - 3D-Speaker pytho=3.8
coda activate 3D-Speaker
pip istall -r requiremets.txt

运行ERes2Net在VoxCeleb集上的训练脚本

cd egs/3dspeaker/sv-eres2et
# 需要在ru.sh中提前配置训练使用的GPU信息，默认是4卡
bash ru.sh

使用本预训练模型快速提取embeddig

pip istall modelscope
cd 3D-Speaker
# 配置模型名称并指定wav路径，wav路径可以是单个wav，也可以包含多条wav路径的list文件
model_id=damo/speech_eres2et_large_sv_zh-c_cceleb_16k
# 提取embeddig
pytho speakerlab/bi/ifer_sv.py --model_id $model_id --wavs $wav_path

3D-Speaker 开发者社区钉钉群

ERes2Net-Large 说话人识别模型 ERes2Net模型结合全局特征和局部特征，从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号；全局特征融合使用不同层级输出的不

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

ERes2Net-Large说话人确认-中文-CNCeleb-16k

技术信息

作品详情

ERes2Net-Large 说话人识别模型

模型简述

训练数据

模型效果评估

在线体验

在Notebook中体验

训练和测试自己的ERes2Net-Large模型

使用本预训练模型快速提取embeddig

相关论文以及引用信息

3D-Speaker 开发者社区钉钉群

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐