模型介绍
基于RWKV(damo/speechrwkvbat_asr-en-16k-librispeech-vocab5003-pytorch-online),更换vocab,增加粤语部分字,通过在普通话1w小时、粤语100小时、英语1w小时音频数据集上进行训练1轮。
RWKV BAT 模型介绍
项目介绍
Boundary Aware Transducer (BAT) 是达摩院语音团队改进传统RNN-Transducer (RNN-T) 得到的计算高效且低延迟的语音识别模型。
RWKV-BAT是以RWKV作为encoder的流式BAT模型。 相比基于chunk conformer的流式模型,基于RWKV的模型延迟更小(因为无需使用未来信息),推理时需要的内存更小(因为无需缓存KV cache)。
如何快速体验模型效果
在Notebook中开发
对于有开发需求的使用者,特别推荐您使用Notebook进行离线处理。先登录ModelScope账号,点击模型页面右上角的“在Notebook中打开”按钮出现对话框。api调用方式可参考如下范例:
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
inference_pipline = pipeline(
task=Tasks.auto_speech_recognition,
model='dengcunqin/speech_rwkv_bat_asr-zh-cantonese-en-16k-vocab8501-pytorch-online',
model_revision="v1.0.1",
)
rec_result = inference_pipline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav')
print(rec_result)
如何训练自己的BAT模型?
本项目提供的BAT是基于Librispeech的识别模型,开发者可以基于本项目对应的github代码仓库进一步进行模型的领域定制化。
基于github的模型训练和推理
FunASR框架支持魔搭社区开源的工业级的语音识别模型的training & finetuning,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,目前已在github开源:https://github.com/alibaba-damo-academy/FunASR。
评论