开源地址
https://modelscope.cn/models/iic/speech_charctc_kws_phone-speechcommands授权协议
Apache License 2.0

语音唤醒模型介绍

模型描述

移动端语音唤醒模型，检测关键词为"Yes/No/Up/Dow/Left/Right/O/Off/Stop/Go"10个英文单词。
模型网络结构继承自论文《Compact Feedforward Sequetial Memory Networks for Small-footprit Keyword Spottig》，其主体为4层cFSMN结构(如下图所示)，参数量约750K，适用于移动端设备运行。
模型输入采用Fbak特征，训练阶段使用CTC-loss计算损失并更新参数，输出为基于char建模的中文全集toke预测，toke数共2599个。测试工具根据每一帧的预测数据进行后处理得到输入音频的实时检测结果。
模型训练采用"basetrai + fietue"的模式，basetrai过程使用大量内部移动端数据，在此基础上，使用Google开源命令词数据进行微调得到输出模型。由于采用了中文char全量toke建模，并使用充分数据进行basetrai，本模型支持基本的唤醒词/命令词自定义功能，但具体性能无法评估。如用户想验证更多命令词，可以通过页面右侧“在线体验”板块自定义设置并录音测试。
目前最新ModelScope版本已支持用户在basetrai模型基础上，使用其他关键词数据进行微调，得到新的语音唤醒模型。欢迎您通过小云小云模型了解唤醒模型定制的方法。

cFSMN网络框图

使用方式和范围

运行范围：

现阶段只能在Liux-x86_64运行，不支持Mac和Widows。
模型训练需要用户服务器配置GPU卡，CPU训练暂不支持。

使用方式：

使用附带的kwsbp工具(Liux-x86_64)直接推理，分别测试正样本及负样本集合，综合选取最优工作点。

使用范围:

移动端设备，Adroid/iOS型号或版本不限，使用环境不限，采集音频为16K单通道。

目标场景:

移动端APP用到的关键词检测场景。

如何使用

模型推理代码范例：

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

kwsbp_16k_piplie = pipelie(
    task=Tasks.keyword_spottig,
    model='damo/speech_charctc_kws_phoe-speechcommads')

kws_result = kwsbp_16k_piplie(audio_i='https://isv-data.oss-c-hagzhou.aliyucs.com/ics/MaaS/KWS/pos_testset/kws_speechcommads_yes.wav')
prit(kws_result)

audio_i参数说明：

默认传入url地址的问问正样本音频，函数返回单条测试结果。
设置本地单条音频路径，如audioi='LOCALPATH'，函数返回单条测试结果。
设置本地正样本目录(自动检索该目录下wav格式音频)，如audioi=['POSDIR', Noe]，函数返回全部正样本测试结果。
设置本地负样本目录(自动检索该目录下wav格式音频)，如audioi=[Noe, 'NEGDIR']，函数返回全部负样本测试结果。
同时设置本地正/负样本目录，如audioi=['POSDIR', 'NEG_DIR']，函数返回Det测试结果，用户可保存JSON格式文本方便选取合适工作点。

模型局限性以及可能的偏差

考虑到正负样本测试集覆盖场景不够全面，可能有特定场合/特定人群唤醒率偏低或误唤醒偏高问题。

训练数据介绍

basetrai使用内部移动端ASR数据5000+小时，fietue使用Google开源命令词数据。

模型训练流程

模型训练采用"basetrai + fietue"的模式，fietue过程直接使用目标场景的特定唤醒词数据并混合一定比例的负样本数据。如训练数据与应用场景不匹配，应当针对性做数据模拟。

预处理

fietue模型直接使用SpeechCommads_v1开源数据，未做任何数据模拟。

数据评估及结果

我们采用一些语音关键词相关论文中对SpeechCommads_v1数据的评估方式，统计"Yes/No/Up/Dow/Left/Right/O/Off/Stop/Go/SIL/Ukow"共12个分类的正确率为97.66%。
由于这批开源数据量较少且场景单一，测试结果仅作参考；为了能实际体验效果，我们最终朝着平均正确率约95%左右输出了每个词的阈值。

相关论文以及引用信息

@iproceedigs{che18c_iterspeech,
  author={Megzhe Che ad ShiLiag Zhag ad Mig Lei ad Yog Liu ad Haitao Yao ad Jie Gao},
  title={{Compact Feedforward Sequetial Memory Networks for Small-footprit Keyword Spottig}},
  year=2018,
  booktitle={Proc. Iterspeech 2018},
  pages={2663--2667},
  doi={10.21437/Iterspeech.2018-1204}
}

@article{speechcommadsv2,
   author = { {Warde}, P.},
    title = "{Speech Commads: A Dataset for Limited-Vocabulary Speech Recogitio}",
  joural = {ArXiv e-prits},
  archivePrefix = "arXiv",
  eprit = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Sciece - Computatio ad Laguage, Computer Sciece - Huma-Computer Iteractio},
    year = 2018,
    moth = apr,
    url = {https://arxiv.org/abs/1804.03209},
}

语音唤醒模型介绍模型描述移动端语音唤醒模型，检测关键词为"Yes/No/Up/Down/Left/Right/On/Off/Stop/Go"10个英文单词。模型网络结构继承自论文《Com

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

CTC语音唤醒-移动端-单麦-16k-SpeechCommands

技术信息

作品详情