Vision Transformer 模型镜像

我要开发同款
匿名用户2024年07月31日
46阅读
所属分类aiPytorch
开源地址https://modelscope.cn/models/monetjoe/vit-base-patch16-224-in21k
授权协议Apache License 2.0

作品详情

Vision Transformer(ViT)是一个基于transformer编码器模型(类似于BERT)在一个大型图像集合上以监督方式进行预训练的模型,即ImageNet-21k,分辨率为224x224像素。图像被呈现给模型作为一系列固定大小的patch(分辨率为16x16),这些patch被线性嵌入。还在序列的开头添加了一个[CLS]标记,用于分类任务。在将序列馈送到Transformer编码器的层之前,还添加了绝对位置嵌入。需要注意的是,该模型不提供任何精细调整的头部,因为这些头部已被Google研究人员置零。然而,模型包括预训练的池化器,可用于下游任务(如图像分类)。通过对模型进行预训练,它学习了图像的内部表示,然后可以用于提取有用于下游任务的特征:例如,如果您有一个带标签的图像数据集,您可以通过在预训练的编码器顶部放置一个线性层来训练一个标准的分类器。通常将线性层放在[CLS]标记的顶部,因为该标记的最后隐藏状态可以看作是整个图像的表示。

Clone with HTTP

GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/monetjoe/vit-base-patch16-224-in21k.git

Reference

[1] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论