AI

该模型当前使用的是默认介绍模版,处于“预发布”阶段,页面仅限所有者可见。 请根据模型贡献文档说明,及时完善模型卡片内容。ModelScope平台将在模型卡片完善后展示。谢谢您的理解。 Clone wi
440cv
文本绘制扩散模型TextDiffuser 扩散模型(Diffusion Models)目前无法在图像中绘制准确清晰的文字内容,而TextDiffuser专注于解决该问题,可以生成与背景融合的带文字的图
420pytorchmulti-modal
模型描述 (Model Description) ELITE是一种基于扩散模型实现图像主体保ID内容迁移的算法。该方法借助基于训练的encoder提取原图的语义信息,从而实现保ID的文生图和图像内容迁
390pytorchcv
PALM文本生成模型介绍 PALM模型是一个通用的预训练生成模型,可以用于解决下游各种类型的生成任务。模型利用大量无监督数据,通过结合自编码和自回归任务进行预训练。可以用于解决文本生成相关的任务包含:
370pytorchnlp
OpenBuddy - Open Multilingual Chatbot GitHub and Usage Guide: https://github.com/OpenBuddy/OpenBuddy
310
MossFormer语音分离模型介绍 我们日常可能会遇到在嘈杂环境中进行语言交流的场景,比如在人多的餐厅里或者拥挤的人群中,同时存在着许多不同的说话人的声音,这时听者可能只对一个主说话人的声音感兴趣,
3120pytorchaudio
SD-XL 1.0-refiner Model Card Modelscope Usage from modelscope.utils.constant import Tasks from mode
270pytorchmm
Beautiful-Realistic-Asians-v5 based on Stable Diffusion From: https://civitai.com/models/25494/brabe
510pytorchmm
OpenBuddy - Open Multilingual Chatbot GitHub and Usage Guide: https://github.com/OpenBuddy/OpenBuddy
350
# SoftVC VITS Singing Voice Conversion [**English**](./README.md) | [**中文简体**](./README_zh_CN.md)
410
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
400pytorchaudio
文字识别模型介绍 文字识别,即给定一张文本图片,识别出图中所含文字并输出对应字符串。 本模型用于通用场景(不包含手写场景)的文字识别任务。 欢迎使用! 模型描述 本模型主要包括两个主要部分,统一卷积与
370pytorchcv
MasaCtrl: Tuning-free Mutual Self-Attention Control for Consistent Image Synthesis and Editing M
350
OpenBuddy - Open Multilingual Chatbot GitHub and Usage Guide: https://github.com/OpenBuddy/OpenBuddy
330pytorch
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
780pytorchaudio
输入一张人体图像,输出人体参数化模型SMPL的pose和shape估计结果,已经对应的vertices,3D关键点。 SMPL模型 pose 维度(24, 3),包含1个global rota
370pytorch
模型描述 (Model Description) MDQE (Mining Discriminative Query Embeddings) (CVPR2023) 是一种视频实例分割算法,对视频中遮挡
330pytorchcv
PALM文本生成模型介绍 PALM模型是一个通用的预训练生成模型,可以用于解决下游各种类型的生成任务。模型利用大量无监督数据,通过结合自编码和自回归任务进行预训练。可以用于解决文本生成相关的任务包含:
370pytorchnlp
Highlights 英文会议对话场景,端到端说话人日志预训练模型,解决 "who spoke when",发表于ICASSP 2023,通过finetune可以在 Callhome 数据集上获得 S
620pytorchaudio
mPLUG-Owl介绍 mPLUG-Owl是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场
420pytorchmulti-modal
当前共6731个项目
×
寻找源码
源码描述
联系方式
提交