基于视觉和语言的知识蒸馏的开放词汇目标检测模型介绍 模型描述 利用视觉和语言的知识蒸馏提取来学习开放词汇目标检测,提出了一种从开放词汇图像分类模型中知识蒸馏的开放词汇检测方法ViLD,ViLD是第一个
430tensorflowcv
Redshift Diffusion 本模型自 Stable Diffusion 在高分辨率3D艺术图像数据集上微调而来。在 prompt 中加入 redshift style 可以在生成图像中实现该
440pytorchtext2image generation
DEPE模型介绍 基于多摄像头的纯视觉3D目标检测方法在自动驾驶领域得到越来越广泛的关注。DEPE模型采用Transformer的end-to-end的结构设计,无需传统检测方法中手工设计的要素(如a
410pytorchcv
算法介绍 任务简介 单目深度估计,是指以单目RGB图像作为输入,根据图像中的结构信息、角点信息、相对位置信息等等对输入中的每个像素的深度值进行估计,输出稠密深度图。 模型介绍 本模型来自于From B
330pytorchcv
模型描述 2020 年 4 月,YOLOv4 在悄无声息中重磅发布,在目标检测领域引起广泛的讨论。在 YOLO 系列的原作者 Joseph Redmon 宣布退出 CV 领域后,表明官方不再更新 YO
310pytorchcv
运动生成模型介绍 根据文本描述,自动生成人体的运动对很多行业都有重要的应用,例如动画制作,元宇宙以及机器人等。上图展示了模型的输入和输出效果 模型描述 整个任务根据文字描述生成对应人体的运动,
240pytorchcv
DDPM-Seg模型介绍 本模型使用预训练好的[guided diffusion]()作为特征提取器,并在有标注的训练数据很少的情况下取得了SOTA的结果。 本模型的生成效果如下所示: 模型描述 本模
470pytorchcv
FRFM模型介绍 稳定调用及效果更好的API,详见视觉开放智能平台:人脸比对1:1、口罩人脸比对1:1、人脸搜索1:N、公众人物识别、明星识别。 口罩人脸识别模型FRFM。 模型描述 口罩人脸识别模型
390pytorchcv
模型描述 少样本目标检测模型DeFRCN,提出了一种简单而有效的基于Decoupled Faster R-CNN,引入新的GDL和PCB,显著地缓解了传统Faster R-CNN在数据匮乏场景下的潜在
450pytorchcv
GPT-3文本生成模型介绍 GPT-3模型是一个通用的预训练生成模型,使用Transformer的Decoder-only结构,可以用于解决下游各种类型的生成任务,特别是zero-shot生成能力。模
350pytorchnlp
基于StructBERT的司法预训练模型介绍 该模型在StructBERT预训练模型的基础上使用400GB司法语料进行预训练。训练语料涵盖了裁判文书、法律法规、庭审笔录、法律问答和法律百科等司法领域文
450pytorchnlp
基于StructBERT的司法预训练模型介绍 该模型在StructBERT预训练模型的基础上使用400GB司法语料进行预训练。训练语料涵盖了裁判文书、法律法规、庭审笔录、法律问答和法律百科等司法领域文
310pytorchnlp
基于StructBERT的司法预训练模型介绍 该模型在StructBERT预训练模型的基础上使用400GB司法语料进行预训练。训练语料涵盖了裁判文书、法律法规、庭审笔录、法律问答和法律百科等司法领域文
390pytorchnlp
基础视觉模型高效调优:Structured Model Probing (SMP) Structured Model Probing (SMP) 是一种适用于基础模型的下游任务迁移的高效方法,可大幅减
380pytorchcv
BERT base model (uncased) Pretrained model on English language using a masked language modeling (MLM
370pytorchaudio
基于第三方监督的词对齐工具 Third-Party Supervised Word Aligner 模型描述 词对齐任务旨在挖掘平行语料中互为翻译的词对,由于缺乏精确且足够的标注数据集,现有的工作多基
560pytorch
OFA-sudoku 解决方案 数独是什么? 数独是源自18世纪瑞士的一种数学游戏。是一种运用纸、笔进行演算的逻辑游戏。玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一
440pytorchmulti-modal
多语言文本正则化和反正则化 文本正则化(Text Normalization, TN)和反正则化(Inverse Text Normalization, ITN)是什么 文本正则化(Text Norm
500pytorchaudio
基于连续语义增强的神经机器翻译模型介绍 本模型基于邻域最小风险优化策略,backbone选用先进的transformer-base模型,编码器和解码器深度分别为24和6,相关论文已发表于ACL 202
550tensorflownlp
图像匹配算法介绍 任务 输入一对图片,图像匹配算法将输出图片间对应像素的位置。 模型描述 本模型基于QuadTree Attention for Vision Transformers算法,是该算法的
280pytorchcv
当前共161972个项目
×
寻找源码
源码描述
联系方式
提交