Alibaba

MossFormer2降噪-单麦-16k

主要改动这个模型是mossformer2，原来是一个说话人分离模型，在训练过程中，发现模型在说话人分离的同时具备很强的降噪效果，现在把降噪模型分离出来。建议使用GPU进行推理，经过测试，GPU的推

1680Pytorchaudio

MossFormer2语音分离+降噪-单麦-16k

主要改动这个模型是mossformer2，2说话人，支持单声道，16k音频，同时发现模型在说话人分离的同时具备很强的降噪效果。建议使用GPU进行推理，经过测试，GPU的推理速度是CPU的数十倍。

7820pytorchaudio

Paraformer语音识别-中文-通用-16k-离线-large-热词版-torchscript

模型介绍 Highlights 模型为Paraformer语音识别-中文-通用-16k-离线-large-热词版的torchscript导出版本，可以直接用来做生产部署，一键部署教程（点击此处） Mo

1750Pytorchaudio

Paraformer语音识别-中文-通用-16k-离线-large-长音频版-torchscript

模型介绍 Highlights 模型为Paraformer语音识别-中文-通用-16k-离线-large-长音频版的torchscript导出版本，可以直接用来做生产部署，一键部署教程（点击此处） M

1490Pytorchaudio

Paraformer语音识别-中文-通用-16k-离线-large-torchscript

Paraformer-large-onnx模型介绍 Highlights 模型为Paraformer-large的torchscript导出版本，可以直接用来做生产部署，一键部署教程（点击此处） Mo

920Pytorchaudio

Paraformer语音识别-多方言-通用-16k-离线-large

模型介绍基于Paraformer large(iic/speechparaformer-largeasr_nat-zh-cn-16k-common-vocab8404-pytorch)，更换voca

2920pytorchaudio

语音合成-美式英文-通用领域-多人预训练-24k

Sambert-Hifigan模型介绍模型体验及训练教程详见:Sambert-Hifigan模型训练教程框架描述拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT

1470pytorchaudio

palm_kuakua2

PALM文本生成模型介绍 PALM模型是一个通用的预训练生成模型，可以用于解决下游各种类型的生成任务。模型利用大量无监督数据，通过结合自编码和自回归任务进行预训练。可以用于解决文本生成相关的任务包含：

1280pytorchnlp

StructBERT情感分类-中文-通用-tiny-fast

StructBERT中文情感分类模型介绍情感分类任务，通常为输入一段句子或一段话，返回该段话正向/负向的情感极性，在用户评价，观点抽取，意图识别中往往起到重要作用。StructBERT中文情感分类模

570pytorchnlp

aibb

Sambert-Hifigan模型介绍模型体验及训练教程详见:Sambert-Hifigan模型训练教程框架描述拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT

800otheraudio

testsound

StructBERT 中文情感分类模型介绍情感分类任务，通常为输入一段句子或一段话，返回该段话正向/负向的情感极性，在用户评价，观点抽取，意图识别中往往起到重要作用。而在电商场景中，情感分类显得尤为

860pytorchnlp

基于长上下文偏置的音视频识别模型

LCB-NET模型介绍模型原理介绍随着在线会议和课程越来越普遍，如何利用视频幻灯片中丰富的文本信息来改善语音识别（Automatic Speech Recognition， ASR）面临着新的挑

590pytorchaudio

SeACoParaformer热词语音识别-普通话-粤语-英文-通用-16k-离线-large

模型介绍基于SeACoParaformer large(iic/speechseacoparaformerlargeasr_nat-zh-cn-16k-common-vocab8404-pytorc

2430pytorchaudio

GeoMVSNet:基于几何感知的多视图深度估计

基于几何感知的多视图深度估计介绍任务：输入一堆已知相机位姿的图片，预测每张图的深度图以及深度图融合，输出融合后的点云本项目来自GeoMVSNet: Learning Multi-View Ste

1150pytorchcv

qwen-14b-vntl

Qwen-14b-vntl 简介本模型是基于Qwen1.5-14b-Chat基于lora方法微调得到的vntl（visual novel translate）模型，主要用途是galgame及视觉小说

2530pytorchnlp

Paraformer语音唤醒-普通话-16k-实时-tiny

模型介绍基于Paraformer online large(iic/speechparaformer-largeasr_nat-zh-cn-16k-common-vocab8404-online)，

3020pytorchaudio

PALM 2.0 tianqi模型-中文-base

990pytorchnlp

Paraformer语音识别-语音唤醒-普通话-粤语-英文-16k-实时-tiny

模型介绍基于Paraformer online large(damo/speechparaformer-largeasr_nat-zh-cn-16k-common-vocab8404-online)

8220pytorchaudio

PALM 2.0预训练生成模型-中文-base-demo

1270pytorchnlp

Paraformer语音识别-中文-通用-8k-离线-onnx

Paraformer模型介绍 Highlights 模型为Paraformer语音识别-中文-通用-8k-离线的onnx量化导出版本 ModelScope-FunASR FunASR提供可便捷本地或者

1430其他audio

当前共614个项目登录查看更多

登录后即可上传、下载作品

分类

社交 Laravel TypeScript Nuxtjs electron Ruby 系统架构 Linux 单片机医疗健康

Alibaba

重点城市程序员兼职推荐

重点岗位程序员兼职推荐