vit

本项目使用Google提供的vit-base-patch16-224-in21k模型进行微调，完成了犬类品种分类任务。训练时长: 5个epochs。深度学习框架: PyTorch。前后端实现: Flask 和 HTML。通过简单的操作，即可在本地端口5050访问前端WebUI，并拖拽图片实现犬类品种的识别。

2210Pythonwebapp

plant_classify-chenyw

通用图像分类模型介绍 DeiT-base复现，采用ImageNet数据训练。创空间快速可视化展示: ViT图像分类-通用本系列还有如下模型，欢迎试用: ViT图像分类-中文-日常物品

820pytorchcv

全景图室内框架估计

室内框架估计算法介绍输入一张室内空间的全景RGB图像，室内框架估计算法将输出房间的墙线，天花板线跟地线模型描述 PanoViT 的网络框架可以分为backbone、全景视觉变换器编

810pytorchcv

ViT图像分类-通用

840pytorchcv

VitDet图像目标检测

vit-object-detection模型介绍 Exploring Plain Vision Transformer Backbones for Object Detection文章复现，采用COC

2270pytorchcv

X光胸片肺部疾病检测项目

【描述】本工程是深度学习在计算机视觉图像分类方面的应用，基于 Vision Transformer 架构(Vit)，采用的 Kaggle X光胸片数据集，共4个分类，7,100多张图片，数据集压缩包占用1.8GB 的磁盘空间，该数据集 Kaggle 持续在更新中。【项目源码】https://github.com/tgltt/ChestXRayVit 【技术】Transformer、VisionTransformer(ViT)、Pytorch等【职责】 1、阅读 Transformer、VisionTransformer(ViT )相关论文，制定模改方案; 2、数据探索，浏览数据集，并根据数据集特点，确定 ViT 输入图像的尺寸及 Transformer 输入数据的 embedding 大小； 3、数据预处理，删除无效图片(不支持的格式及过大分辨率的图像)，统计训练集均值及标准差，随后使用随机策略裁减原图、颜色抖动、随机水平镜像、缩放、转 Tensor 、标准化等预处理对图像数据进行增强； 4、模型改造，裁减 Transformer 模型,只保留其 Encoder 提取图像特征，然后使用 ViT 将图片切碎(Patch)，并将每个碎片 Flatten 后导入 Transformer的 Encoder ，经 Encoder 提取特征后，最后经由一个 Linear 作分类，损失函数采用交叉熵; 4、模型训练，使用 Adam 优化策略训练模型； 5、模型评估，监控模型损失函数的下降过程，及横向和纵向比较训练集准确率、验证集准确率及测试集准确率; 6、模型调优，根据训练情况，调整 Adam 参数、训练集批量大小、ViT 输入图像的尺寸及 Transformer 输入数据的 embedding 大小等，以提高模型性能。

4420java计算机视觉

当前共6个项目登录查看更多

登录后即可上传、下载作品

分类

K8S JavaScript HaProxy 项目管理 Scala 嵌入式硬件 MySQL postgres 渗透测试负载均衡

vit

重点城市程序员兼职推荐

重点岗位程序员兼职推荐