RWKV-BAT语音识别-普通话-粤语-英文-16k-在线

我要开发同款
匿名用户2024年07月31日
31阅读
所属分类aipytorch
开源地址https://modelscope.cn/models/dengcunqin/speech_rwkv_bat_asr-zh-cantonese-en-16k-vocab8501-pytorch-online
授权协议Apache License 2.0

作品详情

模型介绍

基于RWKV(damo/speechrwkvbat_asr-en-16k-librispeech-vocab5003-pytorch-online),更换vocab,增加粤语部分字,通过在普通话1w小时、粤语100小时、英语1w小时音频数据集上进行训练1轮。

RWKV BAT 模型介绍

项目介绍

Boundary Aware Transducer (BAT) 是达摩院语音团队改进传统RNN-Transducer (RNN-T) 得到的计算高效且低延迟的语音识别模型。

RWKV-BAT是以RWKV作为encoder的流式BAT模型。 相比基于chunk conformer的流式模型,基于RWKV的模型延迟更小(因为无需使用未来信息),推理时需要的内存更小(因为无需缓存KV cache)。

如何快速体验模型效果

在Notebook中开发

对于有开发需求的使用者,特别推荐您使用Notebook进行离线处理。先登录ModelScope账号,点击模型页面右上角的“在Notebook中打开”按钮出现对话框。api调用方式可参考如下范例:

from modelscope.pipelines import pipeline

from modelscope.utils.constant import Tasks


inference_pipline = pipeline(

    task=Tasks.auto_speech_recognition,

    model='dengcunqin/speech_rwkv_bat_asr-zh-cantonese-en-16k-vocab8501-pytorch-online',

    model_revision="v1.0.1",

    )


rec_result = inference_pipline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav')

print(rec_result)

如何训练自己的BAT模型?

本项目提供的BAT是基于Librispeech的识别模型,开发者可以基于本项目对应的github代码仓库进一步进行模型的领域定制化。

基于github的模型训练和推理

FunASR框架支持魔搭社区开源的工业级的语音识别模型的training & finetuning,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,目前已在github开源:https://github.com/alibaba-damo-academy/FunASR。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论