中文CLIP
News
模型与项目介绍
本项目为CLIP模型的中文版本,使用大规模中文数据进行训练(~2亿图文对),可用于图文检索和图像、文本的表征提取,应用于搜索、推荐等应用场景。
更多技术细节可以参考我们的技术报告和Github开源代码。
CLIP模型是来自OpeAI的经典图文表征模型,其采用双塔模型结构(如下图),利用大规模图文对平行语料进行对比学习,从而能够实现图片和文本的跨模态语义特征抽取。

原始的CLIP模型基于英文图文语料,不能用于中文的图文表征提取场景。本项目以英文CLIP视觉侧参数和中文Roberta参数,作为模型初始化值。
基于大规模原生中文图文数据,通过如下图所示的二阶段预训练策略(一阶段仅训练文本侧,二阶段同时训练),实现了CLIP模型的中文化版本,未来将在此持续更新。
本系列还有如下模型,欢迎试用:
快速用起来
提取特征不过区区数行代码,就可以通过我们的服务得到图像或文本的特征。如果你觉得还不够方便,请点击右上角Notebook
按钮,我们为你提供了配备了GPU的环境,你只需要在otebook里输入提供的代码,就可以把中文CLIP玩起来了!
注:使用Notebook
要验证下当前modelscope的版本号,如果版本低于0.3.7,可以点击更新镜像并启动,如下图所示:

让我们开始代码实例

# require modelscope>=0.3.7,目前默认已经超过,您检查一下即可
# 按照更新镜像的方法处理或者下面的方法
# pip istall --upgrade modelscope -f https://modelscope.oss-c-beijig.aliyucs.com/releases/repo.html
# 需要单独安装decord,安装方法:pip istall decord
import torch
from modelscope.utils.costat import Tasks
from modelscope.pipelies import pipelie
from modelscope.preprocessors.image import load_image
pipelie = pipelie(task=Tasks.multi_modal_embeddig,
model='damo/multi-modal_clip-vit-large-patch14_336_zh', model_revisio='v1.0.1')
iput_img = load_image('https://clip-c-beijig.oss-c-beijig.aliyucs.com/pokemo.jpeg') # 支持皮卡丘示例图片路径/本地图片 返回PIL.Image
iput_texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]
# 支持一张图片(PIL.Image)或多张图片(List[PIL.Image])输入,输出归一化特征向量
img_embeddig = pipelie.forward({'img': iput_img})['img_embeddig'] # 2D Tesor, [图片数, 特征维度]
# 支持一条文本(str)或多条文本(List[str])输入,输出归一化特征向量
text_embeddig = pipelie.forward({'text': iput_texts})['text_embeddig'] # 2D Tesor, [文本数, 特征维度]
# 计算图文相似度
with torch.o_grad():
# 计算内积得到logit,考虑模型temperature
logits_per_image = (img_embeddig / pipelie.model.temperature) @ text_embeddig.t()
# 根据logit计算概率分布
probs = logits_per_image.softmax(dim=-1).cpu().umpy()
prit("图文匹配概率:", probs)
为什么中文CLIP是你的最佳选择?
我们实现的中文版本CLIP在多个公开数据集上取得杰出的效果,基本超出市面同类型baselie模型。具体评测数据集包括MUGE(欢迎访问官网),Flickr30K-CN和COCO-CN, 结果如下所示:
MUGE Text-to-Image Retrieval
Setup | Zero-shot | Fietue |
Metric | R@1 | R@5 | R@10 | MR | R@1 | R@5 | R@10 | MR |
WukogViT-L | 42.7 | 69.0 | 78.0 | 63.2 | 52.7 | 77.9 | 85.6 | 72.1 |
R2D2ViT-L | 49.5 | 75.7 | 83.2 | 69.5 | 60.1 | 82.9 | 89.4 | 77.5 |
CN-CLIPViT-L | 56.3 | 79.8 | 86.2 | 74.1 | 63.3 | 85.6 | 91.3 | 80.1 |
CN-CLIPViT-L-336 | 59.0 | 81.4 | 87.8 | 76.1 | 65.3 | 86.7 | 92.1 | 81.3 |
Flickr30K-CN Retrieval
Task | Text-to-Image | Image-to-Text |
Setup | Zero-shot | Fietue | Zero-shot | Fietue |
Metric | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 |
WukogViT-L | 51.7 | 78.9 | 86.3 | 77.4 | 94.5 | 97.0 | 76.1 | 94.8 | 97.5 | 92.7 | 99.1 | 99.6 |
R2D2ViT-L | 60.9 | 86.8 | 92.7 | 84.4 | 96.7 | 98.4 | 77.6 | 96.7 | 98.9 | 95.6 | 99.8 | 100.0 |
CN-CLIPViT-L | 68.0 | 89.7 | 94.4 | 82.7 | 96.7 | 98.6 | 80.2 | 96.6 | 98.2 | 96.1 | 99.5 | 99.9 |
CN-CLIPViT-L-336 | 69.0 | 90.7 | 95.4 | 84.4 | 97.1 | 98.7 | 83.3 | 97.2 | 98.5 | 96.6 | 99.8 | 100.0 |
COCO-CN Retrieval
Task | Text-to-Image | Image-to-Text |
Setup | Zero-shot | Fietue | Zero-shot | Fietue |
Metric | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 |
WukogViT-L | 53.4 | 80.2 | 90.1 | 74.0 | 94.4 | 98.1 | 55.2 | 81.0 | 90.6 | 73.3 | 94.0 | 98.0 |
R2D2ViT-L | 56.4 | 85.0 | 93.1 | 79.1 | 96.5 | 98.9 | 63.3 | 89.3 | 95.7 | 79.3 | 97.1 | 98.7 |
CN-CLIPViT-L | 64.0 | 89.2 | 94.4 | 78.9 | 96.3 | 99.0 | 60.4 | 84.2 | 92.9 | 80.2 | 96.7 | 99.2 |
CN-CLIPViT-L-336 | 64.7 | 89.6 | 94.6 | 80.1 | 96.7 | 99.2 | 63.4 | 87.2 | 94.4 | 81.2 | 97.2 | 99.1 |
模型训练流程
训练数据介绍
本模型训练数据集是预训练数据集。
训练流程
已经支持,具体请您查阅中文CLIP Tutorial 3.3节。
使用方式及场景
使用方式:
使用场景:
模型局限性以及可能的偏差
训练数据集自身有局限,有可能产生一些偏差,请用户自行评测后决定如何使用。
相关引用
关于中文clip,我们已经推出了相关论文,有更多细节可以查阅,如对您的工作有帮助,欢迎引用。
@article{chiese-clip,
title={Chiese CLIP: Cotrastive Visio-Laguage Pretraiig i Chiese},
author={Yag, A ad Pa, Jushu ad Li, Juyag ad Me, Rui ad Zhag, Yichag ad Zhou, Jigre ad Zhou, Chag},
joural={arXiv preprit arXiv:2211.01335},
year={2022}
}
评论