Vision Transformer(ViT)是一个基于transformer编码器模型(类似于BERT)在一个大型图像集合上以监督方式进行预训练的模型,即ImageNet-21k,分辨率为224x224像素。图像被呈现给模型作为一系列固定大小的patch(分辨率为16x16),这些patch被线性嵌入。还在序列的开头添加了一个[CLS]标记,用于分类任务。在将序列馈送到Transformer编码器的层之前,还添加了绝对位置嵌入。需要注意的是,该模型不提供任何精细调整的头部,因为这些头部已被Google研究人员置零。然而,模型包括预训练的池化器,可用于下游任务(如图像分类)。通过对模型进行预训练,它学习了图像的内部表示,然后可以用于提取有用于下游任务的特征:例如,如果您有一个带标签的图像数据集,您可以通过在预训练的编码器顶部放置一个线性层来训练一个标准的分类器。通常将线性层放在[CLS]标记的顶部,因为该标记的最后隐藏状态可以看作是整个图像的表示。
Clone with HTTP
GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/monetjoe/vit-base-patch16-224-in21k.git
Reference
[1] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
评论