Yi Vision Language Model Better Bilingual Multimodal Model ? Hugging Face • ? ModelScope • ? w
280
Udever 多语言通用文本表示模型 文本表示是将一个输入句子使用机器学习模型转换为一个固定维度的连续向量: 输入: 吃完海鲜可以喝牛奶吗? 输出: [0.27162,-0.66159,0.3303
350nlp
ERes2Net-Large 说话人识别模型 ERes2Net模型结合全局特征和局部特征,从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号;全局特征融合使用不同层级输出的不
380pytorchaudio
功能概述 输入一张图,生成相似图。创空间在线体验 输入示例: 输出示例: 可通过参数调整输出图像与输入图像的相似度。 模型结构 基于开源SD模型,修改生成引导条件,并在开源数据集laion-
380pytorchcv
视频-文本检索模型介绍 ProST模型是渐进式的时空原型匹配模型,发表于ICCV 2023 Progressive Spatio-Temporal Prototype Matching for Tex
480pytorchmulti-modal
单目标跟踪算法模型介绍 对于一个输入视频,只需在第一帧图像中用矩形框指定待跟踪目标,单目跟踪算法将在整个视频帧中持续跟踪该目标,输出跟踪目标在所有图像帧中的矩形框信息。 模型描述 本模型是基于Pro
310pytorchcv
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
540pytorchaudio
UniASR 模型介绍 FunASR开源项目介绍 FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型
400pytorchaudio
Data2vec模型介绍 Highlights Data2vec中文预训练模型上线,欢迎试用 提供基于AISHELL-2数据集训练得到的中文预训练模型,可以用于下游任务微调,例如语音识别等。 可以直
580pytorchaudio
Paraformer-large模型介绍 Highlights Paraformer-large-aishell1模型基于AISHELL-1数据集微调,在dev/test上取得CER 1.62/1.
1730pytorchaudio
二值化网络介绍 神经网络二值化是模型量化的极限情况,将神经网络中原本 32 位浮点数参数量化至 1 位定点数。通常神经网络计算量集中在乘加操作,二值权重使该操作只靠位运算就能完成,极大加速了神经网络的
350pytorchcv
越南语逆文本正则化模型 模型描述 越南语逆文本正则化模型是基于FunTextProcessing 开源代码库生成,用于越南语语音识别模型结果后处理中的逆文本正则化部分。 多语言逆文本正则化&文本正则化
450pytorchaudio
葡萄牙语逆文本正则化模型 模型描述 葡萄牙语逆文本正则化模型是基于FunTextProcessing 开源代码库生成,用于葡萄牙语语音识别模型结果后处理中的逆文本正则化部分。 多语言逆文本正则化&文本
370pytorchaudio
德语逆文本正则化模型 模型描述 德语逆文本正则化模型是基于FunTextProcessing开源代码库生成,用于德语语音识别模型结果后处理中的逆文本正则化部分。 多语言逆文本正则化&文本正则化 逆文本
360pytorchaudio
室内框架估计算法介绍 输入一张室内空间的全景RGB图像,室内框架估计算法将输出房间的墙线,天花板线跟地线    模型描述 PanoViT 的网络框架可以分为backbone、全景视觉变换器编
250pytorchcv
Highlights Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳: ASR模型:Paraformer-
330pytorchaudio
ModelScope-FunASR FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在ModelScope上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地
370pytorchaudio
Paraformer模型介绍 Highlights 新增基于ModelScope的微调 ModelScope-FunASR FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持
380pytorchaudio
RANER介绍 模型描述 本方法采用Transformer-CRF模型,使用XLM-Roberta作为预训练模型底座,结合使用外部工具召回的相关句子作为额外上下文,使用Multi-view Train
320pytorchnlp
RANER介绍 模型描述 本方法采用Transformer-CRF模型,使用XLM-Roberta作为预训练模型底座,结合使用外部工具召回的相关句子作为额外上下文,使用Multi-view Train
290pytorchnlp
当前共161669个项目
×
寻找源码
源码描述
联系方式
提交