移动端语音唤醒模型,检测关键词为"
运行范围: 使用方式: 使用范围: 目标场景: audio_i参数说明:语音唤醒模型介绍
模型描述
模型网络结构继承自论文《Compact Feedforward Sequetial Memory Networks for Small-footprit Keyword Spottig》,其主体为4层cFSMN结构(如下图所示),参数量约750K,适用于移动端设备运行。
模型输入采用Fbak特征,训练阶段使用CTC-loss计算损失并更新参数,输出为基于char建模的中文全集toke预测,toke数共2599个。测试工具根据每一帧的预测数据进行后处理得到输入音频的实时检测结果。
模型训练采用"basetrai + fietue"的模式,basetrai过程使用大量内部移动端数据,在此基础上,使用Google开源命令词数据进行微调得到输出模型。由于采用了中文char全量toke建模,并使用充分数据进行basetrai,本模型支持基本的唤醒词/命令词自定义功能,但具体性能无法评估。如用户想验证更多命令词,可以通过页面右侧“在线体验”板块自定义设置并录音测试。
目前最新ModelScope版本已支持用户在basetrai模型基础上,使用其他关键词数据进行微调,得到新的语音唤醒模型。欢迎您通过小云小云模型了解唤醒模型定制的方法。
使用方式和范围
如何使用
模型推理代码范例:
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
kwsbp_16k_piplie = pipelie(
task=Tasks.keyword_spottig,
model='damo/speech_charctc_kws_phoe-speechcommads')
kws_result = kwsbp_16k_piplie(audio_i='https://isv-data.oss-c-hagzhou.aliyucs.com/ics/MaaS/KWS/pos_testset/kws_speechcommads_yes.wav')
prit(kws_result)
模型局限性以及可能的偏差
训练数据介绍
模型训练流程
预处理
数据评估及结果
相关论文以及引用信息
@iproceedigs{che18c_iterspeech,
author={Megzhe Che ad ShiLiag Zhag ad Mig Lei ad Yog Liu ad Haitao Yao ad Jie Gao},
title={{Compact Feedforward Sequetial Memory Networks for Small-footprit Keyword Spottig}},
year=2018,
booktitle={Proc. Iterspeech 2018},
pages={2663--2667},
doi={10.21437/Iterspeech.2018-1204}
}
@article{speechcommadsv2,
author = { {Warde}, P.},
title = "{Speech Commads: A Dataset for Limited-Vocabulary Speech Recogitio}",
joural = {ArXiv e-prits},
archivePrefix = "arXiv",
eprit = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Sciece - Computatio ad Laguage, Computer Sciece - Huma-Computer Iteractio},
year = 2018,
moth = apr,
url = {https://arxiv.org/abs/1804.03209},
}
点击空白处退出提示










评论