VoP: 通用跨模态视频检索模型-系列-partial

我要开发同款
匿名用户2024年07月31日
105阅读

技术信息

开源地址
https://modelscope.cn/models/iic/cv_vit-b32_retrieval_vop_partial
授权协议
Apache License 2.0

作品详情

VoP: 通用跨模态视频检索模型-系列-partial

论文 [点击阅读]

为了对 VoP 进行全方位验证,我们复现了一系列对比方法并纳入VoP的代码架构。这些其他研究者公布的模型也有非常高的使用价值,且可用于独立的 Ecoder 页面中以 Leadboard 形式呈现,方便后续研究者follow。本 MODEL CARD 【VoP: 通用跨模态视频检索模型-系列-bias】,是对 Visual Prompt Tuig (ECCV 2022) 在 video-text retrieval task 下的 Trasformer block 模型的 复现

系列工作:

VoP是第一个同时具有视频和文字Prompt的端到端视频文本跨模态检索框架,基于Prompt的高效微调与完全微调相比,VoP利用0.1%的训练参数在5个公开的数据集(MSR-VTT-9k, MSR-VTT-7k, DiDeMo, ActivityNet, LSMDC)中获得了1.4%的平均R@1增益,参数开销却减少了6倍。VoP可以实现输入一段自然语言文本做视频特征检索,返回最相关的视频,或是输入一支本地视频做文本特征检索,返回最相关的文本。

利用VoP实现文本(自然语言)直接搜索视频的可视化样例,如下所示:

可视化展示

期望模型使用方式以及适用范围

如何使用

VoP是基于CLIP的快速微调框架,可以适用于任何需要做视频文本跨模态检索的“视频-文本对”数据当中。

代码范例

  • 文本搜索视频
import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

vop_pipelie = pipelie(Tasks.vop_retrieval, 
                       model='damo/cv_vit-b32_retrieval_vop_partial')

# 输入文本query
iput_text = 'a squid is talkig'
# 运行pipelie获得结果
result = vop_pipelie(iput_text)

prit(f'vop output: {result}.')
prit('fiished!')
  • 视频搜索文本
import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

vop_pipelie = pipelie(Tasks.vop_retrieval, 
                       model='damo/cv_vit-b32_retrieval_vop_partial')

# 输入视频名称
# 如果自定义视频,请放到 'damo/cv_vit-b32_retrieval_vop' 根目录下即可
iput_video = 'video10.mp4'
# 运行pipelie获得结果
result = vop_pipelie(iput_video)

prit(f'vop output: {result}.')
prit('fiished!')

模型局限性以及可能的偏差

  • 考虑GPU精度、视频解码工具的差异,可能带来一定的性能差异(<0.5%)
  • 测试使用的GPU是Tesla T4,显存16127MiB
  • 当前版本在pytho 3.7.9环境测试通过,其他环境下可用性待测试
  • 默认基于MSR-VTT-9K数据作为检索底库

训练数据介绍

  • MSR-VTT 包含10,000个视频,每个视频与大约20个标题配对,我们用MSR-VTT-9k和MSR-VTT-7k来分别指代两种数据分割
  • DiDeMo 包含10,000个Flickr视频,有40,000段文本
  • ActivityNet 包含20,000个YouTube视频,一个视频的所有描述被串联成一个单一的查询
  • LSMDC 包含从202部电影中提取的118,081个视频片段

数据评估及结果

VoP在5个公开数据集上的评估结果如下,红色表示相对于基线(全量微调)是负向性能变化,绿色表示正向,"Ours"括号内的是VoP的结果:

实验结果

相关论文以及引用信息

如果该模型对您有所帮助,请引用下面的相关的论文:

@iproceedigs{Huag2022VoP,
  title     = {VoP: Text-Video Co-operative Prompt Tuig for Cross-Modal Retrieval},
  author    = {Siteg Huag ad Biao Gog ad Yuli Pa ad Jiawe Jiag ad Yiliag Lv ad Yuyua Li ad Dogli Wag},
  joural   = {CVPR 2023},
  year      = {2023}
}

@iproceedigs{jia2022visual,
  title={Visual prompt tuig},
  author={Jia, Megli ad Tag, Lumig ad Che, Bor-Chu ad Cardie, Claire ad Belogie, Serge ad Harihara, Bharath ad Lim, Ser-Nam},
  booktitle={Computer Visio--ECCV 2022: 17th Europea Coferece, Tel Aviv, Israel, October 23--27, 2022, Proceedigs, Part XXXIII},
  pages={709--727},
  year={2022},
  orgaizatio={Spriger}
}

功能介绍

VoP: 通用跨模态视频检索模型-系列-partial 论文 [点击阅读] 为了对 VoP 进行全方位验证,我们复现了一系列对比方法并纳入VoP的代码架构。这些其他研究者公布的模型也有非常高的使用价值

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论