RNN-T是一种识别准确率高、流式友好的语音识别模型。
本项目实现了基于chuk coformer的流式RNN-T模型,在Gigaspeech上获得了流式模型的SOTA结果。 在页面右侧,可以在“在线体验”栏内看到我们预先准备好的示例音频,点击播放按钮可以试听,点击“执行测试”按钮,会在下方“测试结果”栏中显示识别结果。如果您想要测试自己的音频,可点“更换音频”按钮,选择上传或录制一段音频,完成后点击执行测试,识别内容将会在测试结果栏中显示。 对于有开发需求的使用者,特别推荐您使用Notebook进行离线处理。先登录ModelScope账号,点击模型页面右上角的“在Notebook中打开”按钮出现对话框。api调用方式可参考如下范例: 本项目提供的RNN-T是基于Gigaspeech的识别模型,开发者可以基于本项目对应的github代码仓库进一步进行模型的领域定制化。 FuASR框架支持魔搭社区开源的工业级的语音识别模型的traiig & fietuig,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,目前已在github开源:https://github.com/alibaba-damo-academy/FuASR。 运行范围 使用方式 使用范围与目标场景Coformer Trasducer 模型介绍
项目介绍
如何快速体验模型效果
在线体验
在Notebook中开发
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
iferece_piplie = pipelie(
task=Tasks.auto_speech_recogitio,
model='damo/speech_coformer_trasducer_asr-e-16k-gigaspeech-vocab5001-pytorch-olie',
model_revisio="v1.0.2",
fake_streamig=True)
rec_result = iferece_piplie(audio_i='https://isv-data.oss-c-hagzhou.aliyucs.com/ics/MaaS/ASR/test_audio/asr_example_e.wav')
prit(rec_result)
如何训练自己的RNN-T模型?
基于github的模型训练和推理
FuASR框架安装
# Cloe the repo:
git cloe https://github.com/alibaba/FuASR.git
# Istall Coda:
wget https://repo.cotiuum.io/miicoda/Miicoda3-latest-Liux-x86_64.sh
sh Miicoda3-latest-Liux-x86_64.sh
coda create - fuasr pytho=3.7
coda activate fuasr
# Istall Pytorch (versio >= 1.7.0):
coda istall pytorch==1.7.0 torchvisio==0.8.0 torchaudio==0.7.0 cudatoolkit=9.2 -c pytorch # For more versios, please see https://pytorch.org/get-started/locally/
# Istall ModelScope
pip istall "modelscope[audio]" -f https://modelscope.oss-c-beijig.aliyucs.com/releases/repo.html
# Istall other packages:
pip istall --editable ./
数据评估及结果
model
test (WER%)
RNN-T
13.06
使用方式以及适用范围
点击空白处退出提示
评论