开源地址
https://modelscope.cn/models/iic/cv_vit-b32_retrieval_vop授权协议
Apache License 2.0

VoP: 通用跨模态视频检索模型

论文 [点击阅读]

VoP是第一个同时具有视频和文字Prompt的端到端视频文本跨模态检索框架，基于Prompt的高效微调与完全微调相比，VoP利用0.1%的训练参数在5个公开的数据集(MSR-VTT-9k, MSR-VTT-7k, DiDeMo, ActivityNet, LSMDC)中获得了1.4%的平均R@1增益，参数开销却减少了6倍。VoP可以实现输入一段自然语言文本做视频特征检索，返回最相关的视频，或是输入一支本地视频做文本特征检索，返回最相关的文本。

利用VoP实现文本（自然语言）直接搜索视频的可视化样例，如下所示：

可视化展示

系列工作：

VoP: 通用跨模态视频检索模型
VoP: 通用跨模态视频检索模型-系列-bias
VoP: 通用跨模态视频检索模型-系列-proj
VoP: 通用跨模态视频检索模型-系列-partial

模型描述

模型结构

期望模型使用方式以及适用范围

如何使用

VoP是基于CLIP的快速微调框架，可以适用于任何需要做视频文本跨模态检索的“视频-文本对”数据当中。

代码范例

文本搜索视频

import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

vop_pipelie = pipelie(Tasks.vop_retrieval, 
                       model='damo/cv_vit-b32_retrieval_vop')

# 输入文本query
iput_text = 'a squid is talkig'
# 运行pipelie获得结果
result = vop_pipelie(iput_text)

prit(f'vop output: {result}.')
prit('fiished!')

视频搜索文本

import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

vop_pipelie = pipelie(Tasks.vop_retrieval, 
                       model='damo/cv_vit-b32_retrieval_vop')

# 输入视频名称
# 如果自定义视频，请放到 'damo/cv_vit-b32_retrieval_vop' 根目录下即可
iput_video = 'video10.mp4'
# 运行pipelie获得结果
result = vop_pipelie(iput_video)

prit(f'vop output: {result}.')
prit('fiished!')

模型局限性以及可能的偏差

考虑GPU精度、视频解码工具的差异，可能带来一定的性能差异(<0.5%)
测试使用的GPU是Tesla T4，显存16127MiB
当前版本在pytho 3.7.9环境测试通过，其他环境下可用性待测试
默认基于MSR-VTT-9K数据作为检索底库

训练数据介绍

MSR-VTT 包含10,000个视频，每个视频与大约20个标题配对，我们用MSR-VTT-9k和MSR-VTT-7k来分别指代两种数据分割
DiDeMo 包含10,000个Flickr视频，有40,000段文本
ActivityNet 包含20,000个YouTube视频，一个视频的所有描述被串联成一个单一的查询
LSMDC 包含从202部电影中提取的118,081个视频片段

数据评估及结果

VoP在5个公开数据集上的评估结果如下，红色表示相对于基线(全量微调)是负向性能变化，绿色表示正向，"Ours"括号内的是VoP的结果：

实验结果

相关论文以及引用信息

如果该模型对您有所帮助，请引用下面的相关的论文：

@iproceedigs{Huag2022VoP,
  title     = {VoP: Text-Video Co-operative Prompt Tuig for Cross-Modal Retrieval},
  author    = {Siteg Huag ad Biao Gog ad Yuli Pa ad Jiawe Jiag ad Yiliag Lv ad Yuyua Li ad Dogli Wag},
  joural   = {CVPR 2023},
  year      = {2023}
}

VoP: 通用跨模态视频检索模型论文 [点击阅读] VoP是第一个同时具有视频和文字Prompt的端到端视频文本跨模态检索框架，基于Prompt的高效微调与完全微调相比，VoP利用0.1%的训练参数

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

VoP: 通用跨模态视频检索模型

技术信息

作品详情

VoP: 通用跨模态视频检索模型

论文 [点击阅读]

模型描述

期望模型使用方式以及适用范围

如何使用

代码范例

模型局限性以及可能的偏差

训练数据介绍

数据评估及结果

相关论文以及引用信息

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐