對比式無監(jiān)督預訓練簡介（Contrastive Pre-training）

發(fā)布人：CV研究院時間：2022-03-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

自監(jiān)督學習通過設計適當?shù)淖员O(jiān)督任務，從大規(guī)模的無標注數(shù)據中學習可遷移的知識，從而提高下游任務上的表現(xiàn)。根據任務的類型，我們可以將常見的無監(jiān)督預訓練方法分為生成式預訓練和對比式預訓練。本文主要介紹常見的對比式預訓練任務。

對比式預訓練 Contrastive Pre-training

對比式預訓練的核心想法是學習如何區(qū)分不同的數(shù)據。

日常生活中我們會進行大量類似的訓練，比如區(qū)分你每天接觸到的人。盡管他們每天的打扮都不同，但是大部分時候你可以只通過他們的外表、動作甚至背影就判斷出他的名字。

大部分對比學習預訓練方法都可以歸結為以下幾步：

對于任意一個數(shù)據 X，構造它的兩個視圖，查詢視圖Xq和鍵值視圖Xk
使用編碼器encoder將不同的視圖映射到低維的特征空間，使用****decoder將這些特征映射到度量空間
優(yōu)化編碼器和****，使得在度量空間中，同一個數(shù)據的不同視圖之間的距離盡可能近
將預訓練得到的編碼器作為下游任務的特征提取器

此處的查詢視圖Xk類似于我們對每個人的記憶/印象，而鍵值視圖Xq則是在路上碰到的某個人，讓同一個數(shù)據不同視圖之間的度量距離盡可能近，類似于我們要避免認錯人的尷尬。為此，模型需要找到對于區(qū)分數(shù)據最有用的特征，比如不同人走路時的姿態(tài)、氣質，而不僅僅是衣服。

如果只是讓同一個數(shù)據的不同視圖之間的距離盡可能近，模型極有可能學到一些平凡解（trivial solution），例如所有的數(shù)據在度量空間都是某個常數(shù)。因此大部分對比學習中還需要讓不同數(shù)據的距離盡可能遠，來防止模型輸出的坍塌。不同的數(shù)據也被稱作負樣本（negative samples）。

因模型所學到的特征表示取決于不同視圖的構建方式。根據視圖構建方式的不同，大多數(shù)對比式預訓練方法可以大致分為：（1）互信息最大化，（2）相對位置預測，（3）實例鑒別。它們分別捕捉了訓練數(shù)據的全局-局部關系、局部-局部關系和全局-全局關系。

互信息最大化 Mutual Information Maximization

互信息最大化使用全局特征和局部特征作為不同的視圖。

以經典工作Deep InfoMax[1]為例。一張圖片經過卷積網絡會得到一個M x M大小的特征圖，再經過一個全局池化層會得到一個一維的特征?；バ畔⒆畲蠡哪繕耸鞘沟猛粡垐D片的任意局部特征（特征圖上任意一個位置的特征）與全局特征之間的距離盡可能近，從而達到一葉知秋的效果（只看到狗的鼻子就知道某張圖片是狗的照片，而不是負樣本貓的照片）。

互信息最大化已被用于在多種數(shù)據上進行預訓練，例如

圖像數(shù)據上的 Deep InfoMax ：最大化圖像局部特征和全局特征之間的互信息
序列數(shù)據上的 Contrastive Predictive Coding[2]：最大化序列某一時刻的全局特征和未來某一時刻局部特征的互信息
圖數(shù)據上的Deep Graph Infomax[3]：最大化節(jié)點的局部表示和 k-跳鄰域內的上下文表示之間的互信息。
多模態(tài)數(shù)據上的Contrastive Language-Image Pre-training (CLIP) [4]：最大化圖像和相應文本之間的互信息。在使用來自 Internet 的大規(guī)模圖像-文本對數(shù)據集進行預訓練后，CLIP在下游任務上具有了非常不錯的零樣本學習能力

相對位置預測 Relative Position Prediction

相對位置預測使用數(shù)據不同的局部作為不同的視圖。

BERT[5]除了引入了Masked Language Modeling任務，還引入了句子級別的對比任務Next Sentence Prediction (NSP)，來提高句子級別的任務的遷移性。具體地，NSP 使用二元分類器判斷從語料庫中采樣的兩個句子是否相鄰（每句話是整個文檔的一個局部）。

然而，NSP 任務的有效性遭到了不少的質疑。通過NSP任務，預訓練模型最終學到的可能只是主題預測的能力，而不是更困難的連貫性預測，而主題預測并不能很好地提高下游任務上的遷移性。因此，ALBERT[6]引入了句子順序預測任務Sentence Order Prediction，其中，來自同一文檔的兩個連續(xù)片段是正例，而相同的片段交換順序后則是負例。

計算機視覺中也探索過類似的想法，比如預測圖像中兩個補丁的相對位置[7]。

實例鑒別 Instance Discrimination

實例鑒別使用數(shù)據增廣來生成同一實例的不同視圖。

負采樣降低了實例鑒別任務的難度，而不同實例之間的區(qū)分性與下游任務的遷移性密切相關，因此人們總是盡可能地增大K。比如 Inst-Disc [8]使用一個memory bank來存儲每個鍵的表示，然后每隔一段時間再進行更新，從而在不增加計算負擔的情況下，有效的增加負樣本的數(shù)量。

但是memory bank也使得不同實例的鍵出現(xiàn)了不一致（來自于不同參數(shù)的特征編碼器），導致了負樣本的質量下降。為了緩解這個問題，Momentum Contrast (MoCo) [9]

使用一個隊列存儲所有負例的鍵，在一個batch后，更新隊列中最老的負例
使用動量編碼器對鍵進行編碼，動量編碼器使用了滑動平均的機制，因此它的參數(shù)變化不會太快，從而讓不同樣本的的鍵來自相似的網絡。

SimCLR [10]發(fā)現(xiàn)數(shù)據增廣對對比式預訓練有非常大的影響。即使不需要memory bank或者隊列，更強的數(shù)據增廣就可以很好地提高下游任務的遷移性。

更神奇的是，SimSiam[11]發(fā)現(xiàn)負樣本和動量編碼器都不是必需的，只需要讓鍵值對應的編碼器的梯度不要回傳，就可以獲得不錯的預訓練模型。

對比式的無監(jiān)督預訓練在部分下游任務上，例如目標檢測和語義分割，甚至超過了有監(jiān)督預訓練的模型，可能的原因是標準監(jiān)督預訓練通常關注了高層的語義信息，而對比預訓練更加關注底層的語義信息。因此對比式學習能夠學到更加通用的表示，從而提高任務差異較大的下游任務上的遷移性。

本文主要參考Transferability in Deep Learning: A Survey[12] 中的章節(jié)2.3.2 Contrastive Learning。感興趣的讀者可以閱讀原文（https://arxiv.org/pdf/2201.05867.pdf）。

參考

^R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, and Yoshua Bengio. Learning deep representations by mutual informa- tion estimation and maximization. In ICLR, 2019.
^Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. NeurIPS, 2019.
^Petar Veliˇckovi ?c, William Fedus, William L Hamilton, Pietro Li`o, Yoshua Bengio, and R Devon Hjelm. Deep graph infomax. In ICLR, 2019.
^Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
^Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.
^Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Albert: A lite bert for self-supervised learning of language representations. In ICLR, 2020.
^Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsupervised visual representation learning by context prediction. In ICCV, 2015.
^Zhirong Wu, Yuanjun Xiong, X Yu Stella, and Dahua Lin. Unsupervised feature learning via non-parametric instance discrimination. In CVPR, 2018.
^Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In CVPR, 2020.
^Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple frame- work for contrastive learning of visual representations. In ICML, 2020.
^ Xinlei Chen and Kaiming He. Exploring simple siamese representation learning. In CVPR, 2021.
^Junguang Jiang, Yang Shu, Jianmin Wang, Mingsheng Long, Transferability in Deep Learning: A Survey https://arxiv.org/abs/2201.05867

引用知乎——https://zhuanlan.zhihu.com/p/463840977

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

對比式無監(jiān)督預訓練簡介（Contrastive Pre-training）

相關推薦

技術專區(qū)