Patch Shift Trasformers(PST) 是在2D Swi-Trasformer的基础上,增加temporal建模能力,使网络具备视频时空特征学习能力。而这一操作几乎不增加额外参数。具体地,通过shift不同帧之间的patch, 然后在每帧内部分别进行self-attetio 运算,这样使用2D的self-attetio计算量来进行视频的时空特征建模,论文原文链接。 PatchShift示意图: 使用方式: 使用范围: 目标场景: 输出: 在Somethig-Somethig V1 & V2,Kietics400数据集上的模型性能: 更多模型训练和测试细节可参考论文和开源代码。 如果你觉得这个该模型对有所帮助,请考虑引用下面的论文:动作识别模型介绍
模型描述
使用方式和范围
代码范例
import cv2
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
#创建pipelie
actio_recogitio_pipelie = pipelie(Tasks.actio_recogitio, 'damo/cv_pathshift_actio-recogitio')
#运行pipelie,输入视频的本地路径或者网络地址均可
result = actio_recogitio_pipelie('http://viapi-test.oss-c-shaghai.aliyucs.com/viapi-3.0domepic/facebody/RecogizeActio/RecogizeActio-video2.mp4')
prit(f'actio recogitio result: {result}.')
{'labels': 'abseilig'}
数据评估以及结果
Dataset
Model
Top@1
Top@5
Sthv1
PST-Tiy
54.0
82.3
Sthv1
PST-Base
58.3
83.9
Sthv2
PST-Tiy
67.9
90.8
Sthv2
PST-Base
69.8
93.0
K400
PST-Tiy
78.6
93.5
K400
PST-Base
82.5
95.6
引用
@article{xiag2022tps,
title={Spatiotemporal Self-attetio Modelig with Temporal Patch Shift for Actio Recogitio},
author={Wagmeg Xiag, Chao Li, Biao Wag, Xiha Wei, Xia-Sheg Hua, Lei Zhag},
joural={Proceedigs of the Europea Coferece o Computer Visio},
year={2022}
}
点击空白处退出提示
评论