模型描述
这里我们提供基于SOLIDER框架训练的通用人体预训练大模型:SOLIDER-Base。SOLIDER是一个专门用于支持各种人体任务的视觉预训练框架。在现今的各种视觉智能场景中,对图像中人的理解和分析一直都是一个非常重要的环节。SOLIDER提供一种自监督训练方式,让我们可以充分利用世面上大量的人体无标注数据训练出一个可以通用于下游各种人体视觉任务的预训练大模型。其核心技术中稿CVPR2023,“Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks”。具体细节可以参考我们的开源代码和技术报告。
模型价值
现今以人为中心的视觉任务引起了越来越多的研究关注,因为它们在现实场景中有着广泛的应用。如何从大量未标注的人体图像中学习一个通用的人体表征已经成为了学术界关注的重点问题之一。基于此,自监督的学习框架SOLIDER应运而生。 与现有的自我监督学习方法不同,SOLIDER利用人体图像中的先验知识来自监督训练模型,为表征引入更多的语义信息。此外,注意到不同的下游任务通常对预训练的人体表征中语义信息和表观信息的需求程度各不相同。 例如人体解析任务(human parsing)需要表征中包含更多的语义信息,而人体再识别任务(person re-identification)则需要更多的表观信息来进行不同人的识别。 因此,一个单一的人体表征并不能适用于所有下游任务。SOLIDER通过引入一个带有语义控制器的条件神经网络来解决这个问题。 待预训练模型训练完成后,用户可以通过向语义控制器输入希望表征包含语义信息的比例,让控制器调整预训练模型,以生成符合指定语义信息量的人体表征。 从而使得用户可以使用包含不同语义信息量的人体表征去适应不同的下游任务。实验发现SOLIDER在六个下游人体视觉任务中超过了业界最好方法。
模型定性效果
下图中不同颜色表示不同人,不同形状表示人的不同语义部件。可以看到左侧图片(传统模型)中,同一个人的不同部件都聚在一起,不区分不同部件。而右侧图片(SOLIDER-Base模型)中,包含相同语义的部件会聚在一起,即使来自于不同人。并且,如果相同语义的部件表观也相似,他们会离的很近(比如红绿三角),表观不相似会有一定的距离(比如蓝红三角)。这说明相对于传统方式训练的模型,SOLIDER-Base模型包含了更多的语义信息,更适合通用到下游各种人体任务。
模型定量评测
Task | Dataset | Swin Tiny | Swin Small | Swin Base (当前模型) |
---|---|---|---|---|
Person Re-identification (mAP/R1) w/o re-ranking |
Market1501 | 91.6/96.1 | 93.3/96.6 | 93.9/96.9 |
MSMT17 | 67.4/85.9 | 76.9/90.8 | 77.1/90.7 | |
Person Re-identification (mAP/R1) with re-ranking |
Market1501 | 95.3/96.6 | 95.4/96.4 | 95.6/96.7 |
MSMT17 | 81.5/89.2 | 86.5/91.7 | 86.5/91.7 | |
Attribute Recognition (mA) | PETA_ZS | 74.37 | 76.21 | 76.43 |
RAP_ZS | 74.23 | 76.84 | 77.96 | |
PA100K | 84.14 | 86.25 | 86.37 | |
Person Search (mAP/R1) | CUHK-SYSU | 94.9/95.7 | 95.5/95.8 | 94.9/95.5 |
PRW | 56.8/86.8 | 59.8/86.7 | 59.7/86.8 | |
Pedestrian Detection (MR-2) | CityPersons | 10.3/40.8 | 10.0/39.2 | 9.7/39.4 |
Human Parsing (mIOU) | LIP | 57.52 | 60.21 | 60.50 |
Pose Estimation (AP/AR) | COCO | 74.4/79.6 | 76.3/81.3 | 76.6/81.5 |
使用范围
本模型作为通用预训练模型,适用于下游任何人体视觉任务,作为初始化模型提高下游任务的精度。
训练数据
SOLIDER的训练数据可以是任何无标注的人体图像数据,这里我们的SOLIDER-Base使用了学术界常用的LUPerson数据进行训练。
引用
@inproceedings{chen2023beyond,
title={Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks},
author={Weihua Chen and Xianzhe Xu and Jian Jia and Hao Luo and Yaohua Wang and Fan Wang and Rong Jin and Xiuyu Sun},
booktitle={The IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023},
}
评论