pytorch

StructBERT中文自然语言推理模型介绍 自然语言推理任务(NLI)通常指判断一对句子对(前提句,假设句)在语义上是否存在推理蕴涵关系。作为自然语言理解的一个重要组成部分,NLI专注于语义理解,是
260pytorchnlp
TAdaConv 模型介绍 模型描述 TAdaConv是一种在行为识别模型中即插即用的时序自适应卷积(Temporally-Adaptive Convolutions)。作为2D/3D卷积的增强版,T
410pytorchcv
OFA-文本生成图像 (英文) 文本生成图像是什么? 文本生成图像即根据输入的文本,生成与文本描述一致的图像。在本模型中,OFA将根据给定文本输出分辨率为256*256的图片。 注1:OFA实现文本生
360pytorchmulti-modal
Bert实体向量-中文-通用领域-base 实体链接旨在区分文本中的mention和大规模知识图谱中实体的对应关系,也是自然语言处理(NLP)领域的基础问题,在很多对话、检索、关系抽取等下游任务中发挥
480pytorchnlp
DeOldify for Video Colorizaiton English Version | 中文版本 Input a grayscale video and automatically out
420pytorchcv
Llama-3-Chinese-8B-Instruct-v3 这个仓库包含了Llama-3-Chinese-8B-Instruct-v3。 注意:这是一个指令/chat模型,可直接用于对
240
>>返回卡通化系列模型专题页 卡通系列文生图模型-剪贴画 输入一段文本提示词,实现特定风格卡通图像生成,返回符合文本描述的剪贴风格结果图像。 其生成效果如下所示: (1) 人物生成 (2) 物体场景
480pytorchcv
Model Download | Evaluation Results | Model Architecture | API Platform | License | Citati
420
MTTR视频目标分割模型介绍 本模型使用RoBERTa-base和video swin transformer分别来提取输入的文本特征和视频特征,并给出视频中由此文本指定的物体mask。 本模型的生成
480pytorchcv
模型描述 M2-Encoder是强大的中英双语多模态模型,它在我们构建的包含60亿图文对(30亿中文+30亿英文)的BM-6B上训练得到,支持zero-shot 图文跨模态检索(文搜图、图搜文) 以及
380multi-modal
ChatPLUG介绍 ChatPLUG是一个开放域对话模型,其接收用户对话历史和对话相关的外部知识、用户人设、模型人设信息,输出合适的文本回复。 该模型基于PLUG,使用亿级互联网社交数据、百科数据预
390pytorchnlp
CogVLM2-Video-Llama3-Chat 介绍 CogVLM2-Video 在多个视频问答任务上达到了 state-of-the-art 的性能,能够实现一分钟内的视频理解。 我们提供了两
450chat
Mini-InternVL-Chat-2B-V1-5 [? GitHub] [? Blog] [? InternVL 1.0 Paper] [? InternVL 1.5 Report] [?️
430pytorch
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
440pytorchaudio
FAQ问答任务介绍 FAQ问答是智能对话系统(特别是垂直领域对话系统)的核心业务场景,业务专家基于经验或数据挖掘的结果,将用户会频繁问到的业务知识以Q&A的形式维护起来,称之为知识库, 当用户使用对话
600pytorchnlp
Stable Diffusion 3 Medium Model Stable Diffusion 3 Medium is a Multimodal Diffusion Transformer (M
230pytorchtext-to-image
Highlights UniASR葡萄牙语语音识别模型,可对近场、低噪、正常语速、朗读形式的葡萄牙语音频进行语音识别: ASR模型:UniASR模型,葡萄牙语语音识别模型。 ITN模型:葡萄牙语IT
960pytorchaudio
CodeGeeX: 多语言代码生成\翻译模型 CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX采用华为MindSpore框架实现,在鹏城实验室“鹏城云脑II”中的
390pytorchnlp
ERes2NetV2_w24s4ep4 说话人识别模型 ERes2NetV2模型是在ERes2Net的基础上,通过模型剪枝来减小冗余结构并增强短时说话人识别准确率,该模型在原版ERes2NetV2基础
390pytorchaudio
OFA-图文蕴含 (英文) 图文蕴含是什么? 图文蕴含即根据给定的图片和文本判断其语义关系,从“entailment”、“contradiction”和“neutrality”三种关系中选出。 本系列
390pytorchmulti-modal
当前共5187个项目
×
寻找源码
源码描述
联系方式
提交