VoP是第一个同时具有视频和文字Prompt的端到端视频文本跨模态检索框架,基于Prompt的高效微调与完全微调相比,VoP利用0.1%的训练参数在5个公开的数据集(MSR-VTT-9k, MSR-VTT-7k, DiDeMo, ActivityNet, LSMDC)中获得了1.4%的平均R@1增益,参数开销却减少了6倍。VoP可以实现输入一段自然语言文本做视频特征检索,返回最相关的视频,或是输入一支本地视频做文本特征检索,返回最相关的文本。 利用VoP实现文本(自然语言)直接搜索视频的可视化样例,如下所示: 系列工作: VoP是基于CLIP的快速微调框架,可以适用于任何需要做视频文本跨模态检索的“视频-文本对”数据当中。 VoP在5个公开数据集上的评估结果如下,红色表示相对于基线(全量微调)是负向性能变化,绿色表示正向,"Ours"括号内的是VoP的结果: 如果该模型对您有所帮助,请引用下面的相关的论文:VoP: 通用跨模态视频检索模型
模型描述
期望模型使用方式以及适用范围
如何使用
代码范例
import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
vop_pipelie = pipelie(Tasks.vop_retrieval,
model='damo/cv_vit-b32_retrieval_vop')
# 输入文本query
iput_text = 'a squid is talkig'
# 运行pipelie获得结果
result = vop_pipelie(iput_text)
prit(f'vop output: {result}.')
prit('fiished!')
import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
vop_pipelie = pipelie(Tasks.vop_retrieval,
model='damo/cv_vit-b32_retrieval_vop')
# 输入视频名称
# 如果自定义视频,请放到 'damo/cv_vit-b32_retrieval_vop' 根目录下即可
iput_video = 'video10.mp4'
# 运行pipelie获得结果
result = vop_pipelie(iput_video)
prit(f'vop output: {result}.')
prit('fiished!')
模型局限性以及可能的偏差
训练数据介绍
数据评估及结果
相关论文以及引用信息
@iproceedigs{Huag2022VoP,
title = {VoP: Text-Video Co-operative Prompt Tuig for Cross-Modal Retrieval},
author = {Siteg Huag ad Biao Gog ad Yuli Pa ad Jiawe Jiag ad Yiliag Lv ad Yuyua Li ad Dogli Wag},
joural = {CVPR 2023},
year = {2023}
}
点击空白处退出提示







评论