vit

本项目使用Google提供的vit-base-patch16-224-in21k模型进行微调,完成了犬类品种分类任务。 训练时长: 5个epochs。 深度学习框架: PyTorch。 前后端实现: Flask 和 HTML。 通过简单的操作,即可在本地端口5050访问前端WebUI,并拖拽图片实现犬类品种的识别。
2210Pythonwebapp
通用图像分类模型介绍 DeiT-base复现,采用ImageNet数据训练。 创空间快速可视化展示: ViT图像分类-通用 本系列还有如下模型,欢迎试用: ViT图像分类-中文-日常物品
820pytorchcv
室内框架估计算法介绍 输入一张室内空间的全景RGB图像,室内框架估计算法将输出房间的墙线,天花板线跟地线    模型描述 PanoViT 的网络框架可以分为backbone、全景视觉变换器编
810pytorchcv
通用图像分类模型介绍 DeiT-base复现,采用ImageNet数据训练。 创空间快速可视化展示: ViT图像分类-通用 本系列还有如下模型,欢迎试用: ViT图像分类-中文-日常物品
840pytorchcv
vit-object-detection模型介绍 Exploring Plain Vision Transformer Backbones for Object Detection文章复现,采用COC
2270pytorchcv
【描述】本工程是深度学习在计算机视觉图像分类方面的应用,基于 Vision Transformer 架构(Vit),采用的 Kaggle X光胸片数据集,共4个分类,7,100多张图片,数据集压缩包占用1.8GB 的磁盘空间,该数据集 Kaggle 持续在更新中。 【项目源码】https://github.com/tgltt/ChestXRayVit 【技术】Transformer、VisionTransformer(ViT)、Pytorch等 【职责】 1、阅读 Transformer、VisionTransformer(ViT )相关论文,制定模改方案; 2、数据探索,浏览数据集,并根据数据集特点,确定 ViT 输入图像的尺寸及 Transformer 输入数据的 embedding 大小; 3、数据预处理,删除无效图片(不支持的格式及过大分辨率的图像),统计训练集均值及标准差,随后使用随机策略裁减原图、颜色抖动、随机水平镜像、缩放、转 Tensor 、标准化等预处理对图像数据进行增强; 4、模型改造,裁减 Transformer 模型,只保留其 Encoder 提取图像特征,然后使用 ViT 将图片切碎(Patch),并将每个 碎片 Flatten 后导入 Transformer的 Encoder ,经 Encoder 提取特征后,最后经由一个 Linear 作分类,损失函数采用交叉熵; 4、模型训练,使用 Adam 优化策略训练模型; 5、模型评估,监控模型损失函数的下降过程,及横向和纵向比较训练集准确率、验证集准确率及测试集准确率; 6、 模型调优,根据训练情况,调整 Adam 参数、训练集批量大小、ViT 输入图像的尺寸及 Transformer 输入数据的 embedding 大小等,以提高模型性能。
4420java计算机视觉
当前共6个项目more
×
寻找源码
源码描述
联系方式
提交