本模型是一种音频通话场景的单通道回声消除模型算法。 模型接受单通道麦克风信号和单通道参考信号作为输入,输出线性回声消除和回声残余抑制后的音频信号。其中,线性回声消除采用加权的RLS滤波算法,回声残余抑制模型采用Deep FSMN结构。模型的输入是原始观测信号以及线性滤波后信号的Fbak特征,模型的输出是目标语音的Phase sestive mask。模型的训练数据采用AEC-Challege开源数据集以及仿真生成的回声数据集。 模型pipelie 输入为两个16KHz采样率的单声道wav文件,分别是本地麦克风录制信号和远端参考信号,输出结果保存在指定的wav文件中。在安装ModelScope之后,用户还需要做如下环境准备,然后才能使用 本模型已针对主流版本Liux,Widows和MacOS系统做过兼容性测试,但不排除在一些旧版本中存在问题,如果您遇到相关错误,请反馈给我们。 由于训练数据偏差,如果麦克风通道存在音乐声,则音乐会被抑制。 麦克风和参考通道之间的延迟覆盖范围在500ms以内。 AECMOS o AEC-Challege blidtestset_iterspeech2021 指标说明:DFSMN回声消除模型介绍
模型描述
回声消除应用场景示意:
模型训练和推理流程示意:
模型的使用方式
speech_dfsm_aec_psm_16k
进行推理。运行环境
代码范例
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
iput = {
'eared_mic': 'https://modelscope.oss-c-beijig.aliyucs.com/test/audios/eared_mic.wav',
'fared_speech': 'https://modelscope.oss-c-beijig.aliyucs.com/test/audios/fared_speech.wav'
}
aec = pipelie(
Tasks.acoustic_echo_cacellatio,
model='damo/speech_dfsm_aec_psm_16k')
result = aec(iput, output_path='output.wav')
模型局限性
数据评估及结果
ST NE MOS
ST FE Echo DMOS
DT Echo DMOS
DT Other DMOS
3.04
4.44
4.70
2.59
相关论文以及引用信息
@iproceedigs{wag2021weighted,
title={Weighted recursive least square filter ad eural etwork based residual echo suppressio for the aec-challege},
author={Wag, Ziteg ad Na, Yueyue ad Liu, Zhag ad Tia, Biao ad Fu, Qiag},
booktitle={2021 IEEE Iteratioal Coferece o Acoustics, Speech ad Sigal Processig (ICASSP)},
pages={141--145},
year={2021},
orgaizatio={IEEE}
}
@iproceedigs{wag20223a,
title={NN3A: Neural etwork supported acoustic echo cacellatio, oise suppressio ad automatic gai cotrol for real-time commuicatios},
author={Wag, Ziteg ad Na, Yueyue ad Tia, Biao ad Fu, Qiag},
booktitle={ICASSP 2022-2022 IEEE Iteratioal Coferece o Acoustics, Speech ad Sigal Processig (ICASSP)},
pages={661--665},
year={2022},
orgaizatio={IEEE}
}
点击空白处退出提示
评论