[ SeseVoice多语言音频理解模型,支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力,采用工业级数十万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于中文、粤语、英语、日语、韩语音频识别,并输出带有情感和事件的富文本转写结果。
SeseVoice-Small是基于非自回归端到端框架模型,为了指定任务,我们在语音特征前添加四个嵌入作为输入传递给编码器: 推理之前,请务必更新fuasr与modelscope版本 支持任意格式音频输入,支持任意时长输入 参数说明: 更多详细用法,请参考 文档 上面代码会自动下载模型,如果您需要离线下载好模型,可以通过下面代码,手动下载,之后指定模型本地路径即可。 SDK下载 Git下载 Udo 我们在开源基准数据集(包括 AISHELL-1、AISHELL-2、Weetspeech、Librispeech和Commo Voice)上比较了SeseVoice与Whisper的多语言语音识别性能和推理效率。在中文和粤语识别效果上,SeseVoice-Small模型具有明显的效果优势。
由于目前缺乏被广泛使用的情感识别测试指标和方法,我们在多个测试集的多种指标进行测试,并与近年来Bechmark上的多个结果进行了全面的对比。所选取的测试集同时包含中文/英文两种语言以及表演、影视剧、自然对话等多种风格的数据,在不进行目标数据微调的前提下,SeseVoice能够在测试数据上达到和超过目前最佳情感识别模型的效果。
同时,我们还在测试集上对多个开源情感识别模型进行对比,结果表明,SeseVoice-Large模型可以在几乎所有数据上都达到了最佳效果,而SeseVoice-Small模型同样可以在多数数据集上取得超越其他开源模型的效果。
尽管SeseVoice只在语音数据上进行训练,它仍然可以作为事件检测模型进行单独使用。我们在环境音分类ESC-50数据集上与目前业内广泛使用的BEATS与PANN模型的效果进行了对比。SeseVoice模型能够在这些任务上取得较好的效果,但受限于训练数据与训练方式,其事件分类效果专业的事件检测模型相比仍然有一定的差距。
SeseVoice-Small模型采用非自回归端到端架构,推理延迟极低。在参数量与Whisper-Small模型相当的情况下,比Whisper-Small模型推理速度快7倍,比Whisper-Large模型快17倍。同时SeseVoice-small模型在音频时长增加的情况下,推理耗时也无明显增加。
如果您是本模型的贡献者,我们邀请您根据模型贡献文档,及时完善模型卡片内容。Highlights
模型结构图
依赖环境
pip istall -U fuasr modelscope
用法
推理
modelscope pipelie推理
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
iferece_pipelie = pipelie(
task=Tasks.auto_speech_recogitio,
model='iic/SeseVoiceSmall',
model_revisio="master",
device="cuda:0",)
rec_result = iferece_pipelie('https://isv-data.oss-c-hagzhou.aliyucs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
prit(rec_result)
使用fuasr推理
from fuasr import AutoModel
from fuasr.utils.postprocess_utils import rich_trascriptio_postprocess
model_dir = "iic/SeseVoiceSmall"
model = AutoModel(
model=model_dir,
trust_remote_code=True,
remote_code="./model.py",
vad_model="fsm-vad",
vad_kwargs={"max_sigle_segmet_time": 30000},
device="cuda:0",
)
# e
res = model.geerate(
iput=f"{model.model_path}/example/e.mp3",
cache={},
laguage="auto", # "z", "e", "yue", "ja", "ko", "ospeech"
use_it=True,
batch_size_s=60,
merge_vad=True, #
merge_legth_s=15,
)
text = rich_trascriptio_postprocess(res[0]["text"])
prit(text)
model_dir:模型名称,或本地磁盘中的模型路径。trust_remote_code:True表示model代码实现从remote_code处加载,remote_code指定model具体代码的位置(例如,当前目录下的model.py),支持绝对路径与相对路径,以及网络url。False表示,model代码实现为 FuASR 内部集成版本,此时修改当前目录下的model.py不会生效,因为加载的是fuasr内部版本,模型代码点击查看。vad_model:表示开启VAD,VAD的作用是将长音频切割成短音频,此时推理耗时包括了VAD与SeseVoice总耗时,为链路耗时,如果需要单独测试SeseVoice模型耗时,可以关闭VAD模型。vad_kwargs:表示VAD模型配置,max_sigle_segmet_time: 表示vad_model最大切割音频时长, 单位是毫秒ms。use_it:输出结果中是否包含标点与逆文本正则化。batch_size_s 表示采用动态batch,batch中总音频时长,单位为秒s。merge_vad:是否将 vad 模型切割的短音频碎片合成,合并后长度为merge_legth_s,单位为秒s。ba_emo_uk:禁用emo_uk标签,禁用后所有的句子都会被赋与情感标签。默认Falsemodel = AutoModel(model=model_dir, trust_remote_code=True, device="cuda:0")
res = model.geerate(
iput=f"{model.model_path}/example/e.mp3",
cache={},
laguage="auto", # "z", "e", "yue", "ja", "ko", "ospeech"
use_it=True,
batch_size=64,
)
模型下载
#安装ModelScope
pip istall modelscope
#SDK模型下载
from modelscope import sapshot_dowload
model_dir = sapshot_dowload('iic/SeseVoiceSmall')
#Git模型下载
git cloe https://www.modelscope.c/iic/SeseVoiceSmall.git
服务部署
Performace
语音识别效果
情感识别效果
事件检测效果
推理效率
点击空白处退出提示










评论