pytorch

Highlights 新增基于ModelScope的微调 FunASR开源项目介绍 FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员
390pytorchaudio
Highlights UniASR德语语音识别模型,可对近场、低噪、正常语速、朗读形式的德语音频进行语音识别: ASR模型:UniASR模型,德语语音识别模型。 ITN模型:德语ITN模型,可用于语
680pytorchaudio
卡通系列文生图模型 输入一段文本提示词,实现特定风格卡通图像生成,返回符合文本描述且满足特定风格的结果图像。 ModelScope上提供多种风格效果的卡通生成模型: 插画风格
1550pytorchcv
实时烟火检测-通用 模型介绍 本模型为高性能热门应用系列检测模型中的 实时烟火检测模型,基于面向工业落地的高性能检测框架DAMOYOLO,其精度和速度超越当前经典的YOLO系列方法。用户使用的时候,
480pytorchcv
abnormal-object-detection模型介绍 主要是针对长尾和小目标问题解决的高性能通用目标检测模型,采用COCO数据集训练。本模型基于Resnet50-Backbone增加可形变卷积等
280pytorchcv
ECBSR端上图像超分模型 模型描述 输入Y通道的低分辨率图像(单通道灰度图像),返回2倍超分辨率后的高清晰Y通道图像。模型基于Edgeoriented Convolution Block (ECB)
480pytorchcv
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
420pytorchaudio
OFA表情包文本生成器 News 2023年2月: 进一步扩大和过滤非法文本内容的,并原模型上继续迭代微调以产生更加多元化和健康的表情包文本, 并提供创空间体验不同版本效果。 2023年1月: 预处
430pytorchmulti-modal
Mo Di Diffusion 本模型自 Stable Diffusion 1.5 微调而来,微调数据来自某著名动画工作室的电影截图。在 prompt 中加入 modern disney style
400pytorchtext2image generation
基于像素映射的单图人体重建模型 单图人体重建模型使用单张全身人像作为输入,使用生成式模型辅助进行结构恢复与纹理恢复,输出3D人体重建mesh。 纹理渲染效果展示: 生成白模效果展示:
810pytorchcv
Data2vec模型介绍 Highlights Data2vec中文预训练模型上线,欢迎试用 提供基于AISHELL-2数据集训练得到的中文预训练模型,可以用于下游任务微调,例如语音识别等。 新增基
540pytorchaudio
Small Stable Diffusion V0 最近,我们发布了diffusion-deploy,以加快在GPU(~4倍速度,基于TensorRT)和CPU(~12倍速度,基于IntelOpenV
380pytorchmulti-modal
感谢Linaqruf提供的model card供参考。 Anything V4 欢迎使用Anything V4 - 一个为日本动漫爱好者设计的latent diffusion模型。这个模型旨在仅用少数
430pytorchtext2image generation
FRIR 模型介绍 稳定调用及效果更好的API,详见视觉开放智能平台:人脸比对1:1、口罩人脸比对1:1、人脸搜索1:N、公众人物识别、明星识别。 IR人脸识别模型FRIR 模型描述 FRIR是基于残
290pytorchcv
GLM-130B:开放的中英双语预训练模型 摘要:何为 GLM-130B? GLM-130B 是一个开源开放的双语(中文和英文)双向稠密模型,拥有 1300 亿个参数,模型架构采用通用语言模型(GLM
580pytorchnlp
Highlights UniASR法语语音识别模型,可对近场、低噪、正常语速、朗读形式的法语音频进行语音识别: ASR模型:UniASR模型,法语语音识别模型。 ITN模型:法语ITN模型,可用于语
580pytorchaudio
Highlights UniASR越南语语音识别模型,可对近场、低噪、正常语速、朗读形式的越南语音频进行语音识别: ASR模型:UniASR模型,越南语语音识别模型。 ITN模型:越南语ITN模型,
620pytorchaudio
ViDT人脸检测模型 基于ViDT系列算法训练的人脸检测模型,支持对人脸的检测。输入一张图片,返回人脸所在的位置。 本项目实现的模型为ViDT+,采用的Backbone为Swin-Tiny。 模型描述
440pytorchcv
FAQ问答任务介绍 FAQ问答是智能对话系统(特别是垂直领域对话系统)的核心业务场景,业务专家基于经验或数据挖掘的结果,将用户会频繁问到的业务知识以Q&A的形式维护起来,称之为知识库, 当用户使用对话
270pytorchnlp
Highlights UniASR语音识别-中文-音视频-16k模型是在10000小时音视频数据上微调的领域模型,使用词表3445vocab。 Release Notes 2023年3月(3月1
520pytorchaudio
当前共5187个项目
×
寻找源码
源码描述
联系方式
提交