CVPR2023

Correlational Image Modeling for Self-Supervised Visual Pre-Training

Wei Li, Jiahao Xie, Chen Change Loy

Abstract

Figure 1. Schematic of pretext tasks in self-supervised visual pre-training. (a) Multi-View Self-Supervised Learning (MV-SSL) follows an augment-and-compare paradigm. (b) Masked Image Modeling (MIM) conducts a mask-and-predict pretext task within a single view. (c) Correlational Image Modeling (CIM) formulates a novel crop-and-correlate scheme.