監督學習|機器學習|
集成學習|進化計算|
非監督學習| 半監督學習|
自監督學習| 無監督學習|
隨著人工智能、元宇宙、數據安全、可信隱私用計算、大數據等領域的快速發展,自監督學習脫穎而出,致力於解決數據中心、雲計算、人工智能和邊緣計算等各個行業的問題,為人們帶來極大便益。
自監督學習是什麼?
自監督學習與監督學習和非監督學習的關係
自zi我wo監jian督du方fang法fa可ke以yi看kan作zuo是shi一yi種zhong特te殊shu形xing式shi的de具ju有you監jian督du形xing式shi的de非fei監jian督du學xue習xi方fang法fa,其qi中zhong監jian督du是shi通tong過guo自zi我wo監jian督du任ren務wu而er不bu是shi預yu設she的de先xian驗yan知zhi識shi誘you發fa的de。與yu完wan全quan不bu受shou監jian督du的de設she置zhi相xiang比bi,自zi監jian督du學xue習xi利li用yong數shu據ju集ji本ben身shen的de信xin息xi構gou造zao偽wei標biao簽qian。在zai表biao達da學xue習xi中zhong,自zi我wo監jian督du學xue習xi有you很hen大da的de潛qian力li取qu代dai完wan全quan監jian督du學xue習xi。人ren類lei學xue習xi的de本ben質zhi告gao訴su我wo們men,大da型xing標biao注zhu數shu據ju集ji可ke能neng不bu是shi必bi需xu的de,我wo們men可ke以yi自zi發fa地di從cong未wei標biao注zhu的de數shu據ju集ji中zhong學xue習xi。更geng為wei現xian實shi的de設she置zhi是shi使shi用yong少shao量liang帶dai注zhu釋shi的de數shu據ju進jin行xing自zi我wo學xue習xi。這zhe就jiu是shi所suo謂wei的deFew-shot Learning。
自監督學習的主要流派
在自監督學習中,如何自動獲取偽標簽非常重要。根據偽標簽的不同類型,將自監督表示學習方法分為四種類型:
基於數據生成(恢複)的任務
基於數據變換的任務
基於多模態的任務
基於輔助信息的任務
jiandanjieshaoyixiadiyileirenwu。shishishang,suoyoufeijiandufangfadoukeyibeishiweidiyileizijiandurenwu。zaiwenxianyanjiudeguochengzhong,feijianduxuexihezijianduxuexigenbenbucunzaijiexian。
所有非監督學習方法,如數據降維(PCA:在減少數據維度的同時最大化的保留原有數據的方差)和數據擬合分類(GMM:最大化高斯混合分布的似然),本質上都是為了得到一個好的數據表示,並希望能生成(恢複)原始輸入。這也是目前很多自監督學習方法賴以使用的監督信息。基本上,所有的encoder-decoder模型都將數據恢複視為訓練損失。
圖片上色與視頻預測
什麼是基於數據恢複的自監督任務?
一. 數據生成任務
自(zi)監(jian)督(du)學(xue)習(xi)的(de)出(chu)發(fa)點(dian)是(shi)考(kao)慮(lv)在(zai)缺(que)少(shao)標(biao)簽(qian)或(huo)者(zhe)完(wan)全(quan)沒(mei)有(you)標(biao)簽(qian)的(de)情(qing)況(kuang)下(xia),我(wo)們(men)仍(reng)然(ran)可(ke)以(yi)學(xue)習(xi)到(dao)能(neng)夠(gou)表(biao)示(shi)原(yuan)始(shi)圖(tu)片(pian)的(de)良(liang)好(hao)意(yi)義(yi)的(de)特(te)征(zheng)。那(na)麼(me)什(shen)麼(me)樣(yang)的(de)特(te)質(zhi)是(shi)良(liang)好(hao)有(you)意(yi)義(yi)的(de)呢(ne)?在(zai)第(di)一(yi)類(lei)自(zi)監(jian)督(du)任(ren)務(wu)——數shu據ju恢hui複fu任ren務wu中zhong,能neng夠gou通tong過guo學xue習xi到dao的de特te征zheng來lai還hai原yuan生sheng成cheng原yuan始shi數shu據ju的de特te征zheng是shi有you良liang好hao意yi義yi的de。看kan到dao這zhe裏li,大da家jia都dou能neng聯lian想xiang到dao自zi動dong編bian碼ma器qi類lei的de模mo型xing,甚shen至zhi更geng簡jian單dan的dePCA。事實上,幾乎所有的非監督學習方法都是基於這個原理。VAE現在非常流行的深代模式,甚至更熱的GAN都可以歸為這種方法。
GAN的核心是通過Discriminator去縮小Generator distribution和real distribution之間的距離。GAN的學習過程不需要人為進行數據標注,其監督信號也即是優化目標就是使得上述對抗過程趨向平穩。
以兩篇具體的paper為wei例li,介jie紹shao數shu據ju恢hui複fu類lei的de自zi監jian督du任ren務wu如ru何he操cao作zuo實shi現xian。我wo們men的de重zhong點dian依yi然ran是shi視shi覺jiao問wen題ti,這zhe裏li分fen別bie介jie紹shao一yi篇pian圖tu片pian上shang色se的de文wen章zhang和he一yi篇pian視shi頻pin預yu測ce的de文wen章zhang。其qi餘yu的de領ling域yu比bi如ruNLP,其本質是類似的,在弄清楚了數據本身的特點之後,可以先做一些低級的照貓畫虎的工作。
圖片顏色恢複
設she計ji自zi監jian督du任ren務wu時shi,需xu要yao一yi些xie巧qiao妙miao的de思si考kao。比bi如ru圖tu片pian的de色se彩cai恢hui複fu任ren務wu,我wo們men現xian有you的de數shu據ju集ji是shi一yi張zhang張zhang的de彩cai色se圖tu片pian。如ru果guo去qu掉diao顏yan色se,作zuo為wei感gan性xing思si考kao者zhe的de我wo們men,能neng否fou從cong黑hei白bai圖tu片pian所suo顯xian示shi的de內nei容rong中zhong猜cai測ce出chu原yuan始shi圖tu片pian的de真zhen實shi顏yan色se?對dui於yu一yi個ge嬰ying兒er來lai說shuo可ke能neng很hen難nan,但dan是shi對dui於yu我wo們men來lai說shuo,生sheng活huo的de經jing驗yan告gao訴su我wo們men瓢piao蟲chong應ying該gai是shi紅hong色se的de。我wo們men如ru何he做zuo預yu測ce?事shi實shi上shang,通tong過guo觀guan察cha大da量liang的de瓢piao蟲chong,已yi經jing在zai大da腦nao中zhong建jian立li了le一yi個ge從cong“瓢蟲”到“紅色”的映射。
zhegexuexiguochengkuozhandaomoxing。geidingheibaishuru,shiyongzhengqueyansedeyuanshituxiangzuoweixuexibiaoqian,moxingjiangchangshilijieyuanshiheibaituxiangzhongdemeigequyushishenme,ranhoujianlicongshenmedaobutongyansedeyingshe。
當我們完成訓練,模型的中間層feature map就得到以向量形式的類似人腦對於“瓢蟲”以及其他物體的記憶。
視頻預測
一般來說,視覺問題可以分為兩類:圖片和視頻。圖片數據可以認為具有i.i.d特征,而視頻由多個圖片幀組成,可以認為具有一定的Markov dependency。時序關係是他們最大的區別。比如,最簡單的思路是利用CNN提取單個圖片的特征進行圖像分類,然後加入一個RNN或LSTM刻畫Markov Dependency,便可以應用到視頻中。
視(shi)頻(pin)中(zhong)幀(zhen)與(yu)幀(zhen)之(zhi)間(jian)有(you)時(shi)空(kong)連(lian)續(xu)性(xing)。同(tong)樣(yang),利(li)用(yong)幀(zhen)與(yu)幀(zhen)之(zhi)間(jian)的(de)連(lian)續(xu)性(xing),當(dang)看(kan)電(dian)影(ying)的(de)時(shi)突(tu)然(ran)按(an)下(xia)暫(zan)停(ting),接(jie)下(xia)來(lai)幾(ji)秒(miao)鍾(zhong)會(hui)發(fa)生(sheng)什(shen)麼(me),其(qi)實(shi)是(shi)可(ke)以(yi)預(yu)見(jian)的(de)。
同tong樣yang,這zhe個ge學xue習xi過guo程cheng也ye擴kuo展zhan到dao了le模mo型xing中zhong。給gei定ding前qian一yi幀zhen或huo前qian幾ji幀zhen的de情qing況kuang下xia,使shi用yong後hou續xu的de視shi頻pin幀zhen作zuo為wei學xue習xi標biao簽qian,從cong而er模mo型xing會hui試shi著zhe理li解jie給gei定ding視shi頻pin幀zhen中zhong的de語yu義yi信xin息xi(發生了啥?)進而去建立從當前到未來的映射關係。
二. 基於數據變換的任務
事實上,人們現在常常提到的自監督學習通常指的是:這一類自監督任務是比較狹義的概念。
用一句話說明這一類任務,事實上原理很簡單。對於樣本 ,我們對其做任意變換 ,則自監督任務的目標是能夠對生成的 估計出其變換 的參數 。
下麵介紹一種原理十分簡單但是目前看來非常有效的自監督任務——Rotation Prediction。
給定輸入圖片 ,我們對其做4個角度的旋轉,分別得到 ,並且我們知道其對應的變換角度分別為 。此時,任務目標即是對於以上4張圖片預測其對應的旋轉角度,這裏每張圖片都經過同樣的卷積神經網。
自監督學習中
對比學習方法
對(dui)比(bi)學(xue)習(xi)是(shi)自(zi)監(jian)督(du)學(xue)習(xi)中(zhong)的(de)一(yi)個(ge)重(zhong)要(yao)方(fang)法(fa),其(qi)核(he)心(xin)思(si)想(xiang)是(shi)通(tong)過(guo)樣(yang)本(ben)的(de)相(xiang)似(si)性(xing)來(lai)構(gou)建(jian)表(biao)征(zheng)。對(dui)於(yu)相(xiang)似(si)的(de)輸(shu)入(ru)樣(yang)本(ben),由(you)網(wang)絡(luo)產(chan)生(sheng)的(de)表(biao)征(zheng)也(ye)應(ying)當(dang)相(xiang)似(si);而對於差異較大的輸入樣本,表征也應該存在較大區別。根據這一思想,很多基於對比學習的自監督學習方法被提出(如MoCo、SimCLR、BYOL),並對這一領域產生了深遠影響。
對比學習中的一個關鍵步驟是構建正負樣本集合,對於一個輸入樣本 ,如何找到與其相似的正樣本 ,和不相似的負樣本 ?在基於圖像的自監督任務中,一般通過數據增強(data augmentation)來對單張圖片構建不同視圖,這些視圖的圖像內容高度一致,被視為正樣本;而數據集中的其他圖片則直接被視為負樣本。
同一張貓咪圖片經過剪裁得到的另一視圖被視作正樣本,正樣本與原圖經過神經網絡編碼得到的表征應該相似;而數據集中的其餘圖片被視為負樣本,經網絡編碼後的結果應當差異較大。
完成正負樣本的構建後,對比學習一般采用InfoNCE Loss來進行損失計算和模型更新,其形式如下:
其中 表示訓練模型對輸入樣本的編碼過程。InfoNCE Lossyueshumoxingduidangqianyangbendebianmajieguoheduizhengyangbendebianmajieguodeneijijiaoda,erhefuyangbendebianmajieguodeneijijiaoxiao,keyikanzuoshicongyangbenjihezhongpanbiechuyuzhipipeidezhengyangben。
一. MoCo
MoCo是對比學習中一個非常有代表性的方法,其主要思想是將對比學習過程看作一個“查字典”的過程:在一個由眾多樣本構成的鍵值(key)字典中檢索到與查詢樣本的編碼結果(query)相匹配的正樣本。為了提升對比學習的效果,提出兩點假設:
一.鍵值字典的容量應該盡可能增大以提高自監督任務的難度,從而提升訓練效果;
二.鍵值字典應該在訓練過程中保持一定程度的一致性以保障自監督學習過程能夠穩定進行。
基於以上兩點假設,分析了幾種對比學習機製。
1端到端訓練
即對於所有的查詢樣本的編碼結果(query)和字典鍵值(key)同時進行梯度傳播,但這一方法中顯存大小會極大地限製鍵值字典的大小,導致自監督任務難度降低,影響訓練效果;
2.基於memory bank的訓練方法
迭代過程中將鍵值編碼存儲到一個memory bank中,每輪對比學習過程中所需要的字典鍵值直接從memory bank 裏選取,而梯度計算隻對查詢樣本的編碼網絡分支進行。因為MoCo不需要對鍵值字典的分支進行梯度計算,memory bank方法可以顯著提升鍵值字典的容量,但是由於每個樣本在memory bank中的鍵值在被模型重新編碼時才會被更新,鍵值字典中鍵值間的一致性較差,從而降低了訓練的穩定性。
因此,提出一種momentum encoder來實現對鍵值字典的編碼。對於查詢樣本,使用普通encoder進行編碼並直接進行梯度計算;而對於鍵值字典,首先由一個動態更新的隊列維護字典的輸入樣本,再使用momentum encoder將樣本編碼為鍵值。Momentum encoder在訓練過程中不會進行梯度計算,而是采用動量更新的方法從encoder更新參數,更新方法如下:
,
其中, 和 分別表示query encoder和key momentum encoder的參數, ,表示動量參數以調節更新速率。這樣的方法一方麵可以避免key encoder在訓練時因需要計算梯度使字典大小被限製,也可以避免memory bank方法中的鍵值低一致性問題,保障了訓練的穩定性。
值得一提的是,在實驗過程中發現傳統的batch normalization方法可能造成樣本信息的泄露,讓數據樣本意外地“看到了”其他樣本。會使模型在自監督任務中更傾向於選擇一個合適的batch normalization參數,而不是學習一個比較好的特征表示。
二. SimCLR
SimCLR 是一個非常簡潔的自監督學習框架。沒有建立類似MoCo的鍵值字典的方式,而是直接在每個batch中的樣本之間進行比較學習。對於 個輸入數據,先使用兩種不同的數據增強方法產生 個樣本;對於每個樣本來說,從同一輸入圖片中產生另一樣本被視為正樣本,其餘 個樣本被視為負樣本。構建完正負樣本後,SimCLR直接使用端到端的方法計算loss並更新模型。
網絡結構上,與MoCo相比,SimCLR在backbone網絡末端新增了一個由兩層全連接層構成的projection head。模型在訓練階段,根據projection head的輸出 計算損失函數;而在遷移到下遊任務時,會將projection head移除,直接使用backbone部分網絡輸出的表征 。
三. BYOL
BYOL是一個非常有特點的模型,與MoCo、SimCLR相比,BYOL可以直接在正樣本對上進行自監督訓練而不需要構建負樣本集合。BYOL的構想來自於一個非常有意思的發現:在一個完全隨機初始化的網絡所輸出的特征上進行分類任務的top-1準確率隻有1.4%;
但dan如ru果guo將jiang這zhe個ge隨sui機ji初chu始shi化hua網wang絡luo的de輸shu出chu特te征zheng作zuo為wei目mu標biao,用yong另ling一yi個ge網wang絡luo對dui其qi進jin行xing學xue習xi,使shi用yong學xue習xi之zhi後hou的de網wang絡luo進jin行xing特te征zheng提ti取qu再zai進jin行xing分fen類lei可ke以yi達da到dao18.8%的準確度。換言之,以一個特征表示作為目標進行學習,可以獲得一個更好的表示。如此繼續迭代下去,精確度可以繼續往上提升。
基於這一發現,構建了隻需要正樣本對的BYOL學習框架。如圖,一張輸入圖片經過不同數據增強後的兩個視圖分別經過online和target兩個分支的backbone和projection head後得到輸出 和 ,再使用一個prediction head從 預測 。計算損失時使用了MSE loss,且隻對online分支計算梯度和更新參數;對於target分支使用類似MoCo動量更新的方式從online分支更新參數。
自監督學習中的聚類方法
與對比學習或者人工設置的前置任務(pretext task)的(de)學(xue)習(xi)方(fang)式(shi)不(bu)同(tong),基(ji)於(yu)聚(ju)類(lei)的(de)自(zi)監(jian)督(du)方(fang)法(fa)將(jiang)訓(xun)練(lian)樣(yang)本(ben)按(an)照(zhao)某(mou)種(zhong)相(xiang)似(si)度(du)量(liang)進(jin)行(xing)劃(hua)分(fen),劃(hua)歸(gui)到(dao)不(bu)同(tong)聚(ju)類(lei)中(zhong)心(xin)的(de)樣(yang)本(ben)被(bei)賦(fu)予(yu)不(bu)同(tong)的(de)類(lei)別(bie)標(biao)簽(qian),之(zhi)後(hou)使(shi)用(yong)標(biao)準(zhun)的(de)全(quan)監(jian)督(du)學(xue)習(xi)交(jiao)叉(cha)熵(shang)損(sun)失(shi)進(jin)行(xing)訓(xun)練(lian)。用(yong)數(shu)學(xue)語(yu)言(yan)形(xing)式(shi)化(hua)的(de)展(zhan)示(shi)了(le)全(quan)監(jian)督(du)學(xue)習(xi)與(yu)自(zi)監(jian)督(du)聚(ju)類(lei)之(zhi)間(jian)的(de)聯(lian)係(xi)與(yu)區(qu)別(bie):考慮深度模型 將圖像映射為特征 ,全監督學習使用包含完全標注的樣本-標簽數據來優化模型 。
具體來講,假設有N個樣本 ,相應的類別標簽為, ,一個分類頭 將深度模型的 維輸出向量映射到 維(每一維對應一個類別的得分)並使用softmax操作將每個類別的得分轉化為類別概率值。由於交叉熵損失需要給出目標的類別標簽(標注數據集),對於無標注數據,需要首先通過某種分配方式賦予每個樣本具有一定意義的標簽然後才能進行訓練。
一般而言,我們令 為one-hot函數 ,即每一個樣本我們限定其隻能屬於某一類,那麼上述公式可以寫成一個雙層優化問題:
第一步,根據深度模型輸出調整標簽分配方式,得到當前特征下損失函數最小的標簽;
第二步,根據更新的標簽訓練深度模型。
給gei所suo有you的de樣yang本ben賦fu予yu相xiang同tong標biao簽qian之zhi後hou優you化hua模mo型xing參can數shu就jiu可ke以yi最zui小xiao化hua平ping均jun損sun失shi函han數shu。此ci時shi,模mo型xing將jiang所suo有you樣yang本ben均jun映ying射she到dao特te征zheng空kong間jian中zhong的de同tong一yi位wei置zhi附fu近jin,不bu同tong樣yang本ben之zhi間jian的de特te征zheng區qu分fen度du變bian得de微wei弱ruo,模mo型xing性xing能neng嚴yan重zhong退tui化hua,不bu能neng達da到dao學xue習xi出chu有you意yi義yi特te征zheng表biao示shi的de目mu的de。因yin此ci,基ji於yu聚ju類lei的de自zi監jian督du學xue習xi方fang法fa關guan鍵jian在zai於yu引yin入ru適shi當dang的de約yue束shu條tiao件jian,避bi免mian模mo型xing收shou斂lian到dao退tui化hua解jie。
自監督學習推動
醫學圖像分類發展
隨著自監督學習在放射學、binglixuehepifubingxuedengzhuduoyingyonglingyuqudelingrenzhenfendechengguo,renmenduizijianduxuexizaiyixuechengxiangrenwuzhongdeyingyongyuelaiyueganxingqu。jinguanruci,kaifayixuechengxiangmoxingrengranpojutiaozhan,zheshiyouyubiaozhuyixuetuxiangjiweihaoshi,gaozhiliangbiaojishujutongchangjiaoweixique。
鑒於此,遷移學習 (Transfer learning) 成為構建醫學成像模型的熱門範例。這種方法首先要在大型標記數據集(如 ImageNet)中使用監督學習 (Supervised learning) 對模型進行預訓練,然後在域內醫學數據中對習得的通用表征進行微調。
近jin來lai一yi些xie新xin的de方fang法fa在zai自zi然ran圖tu像xiang識shi別bie任ren務wu中zhong取qu得de了le成cheng功gong,尤you其qi是shi在zai標biao記ji示shi例li稀xi少shao的de情qing況kuang下xia,這zhe些xie方fang法fa使shi用yong自zi監jian督du對dui比bi預yu訓xun練lian,然ran後hou進jin行xing監jian督du微wei調tiao(例如 SimCLR 和 MoCo)。在(zai)對(dui)比(bi)學(xue)習(xi)預(yu)訓(xun)練(lian)中(zhong),模(mo)型(xing)將(jiang)同(tong)一(yi)圖(tu)像(xiang)的(de)不(bu)同(tong)轉(zhuan)換(huan)視(shi)圖(tu)間(jian)的(de)一(yi)致(zhi)性(xing)升(sheng)至(zhi)最(zui)高(gao),同(tong)時(shi)將(jiang)不(bu)同(tong)圖(tu)像(xiang)的(de)轉(zhuan)換(huan)視(shi)圖(tu)間(jian)的(de)一(yi)致(zhi)性(xing)降(jiang)至(zhi)最(zui)低(di),從(cong)而(er)習(xi)得(de)通(tong)用(yong)表(biao)征(zheng)。盡(jin)管(guan)這(zhe)些(xie)對(dui)比(bi)學(xue)習(xi)方(fang)法(fa)取(qu)得(de)成(cheng)功(gong),但(dan)在(zai)醫(yi)學(xue)圖(tu)像(xiang)分(fen)析(xi)中(zhong)受(shou)到(dao)的(de)關(guan)注(zhu)有(you)限(xian),其(qi)功(gong)效(xiao)還(hai)有(you)待(dai)探(tan)索(suo)。
研究自監督對比學習作為醫學圖像分類領域預訓練策略的有效性。同時提出一個全新方法——多實例對比學習 (MICLe),這一方法可泛化對比學習以利用醫學圖像數據集的特性。針對兩項不同的醫學圖像分類任務進行實驗:識別數碼相機圖像中皮膚狀況分類(27 類)和對胸部 X 射線進行多標簽分類(5 類)。通過實驗可以觀察到,在 ImageNet 上(shang)進(jin)行(xing)自(zi)監(jian)督(du)學(xue)習(xi),隨(sui)後(hou)對(dui)未(wei)標(biao)記(ji)的(de)特(te)定(ding)領(ling)域(yu)醫(yi)學(xue)圖(tu)像(xiang)進(jin)行(xing)額(e)外(wai)的(de)自(zi)監(jian)督(du)學(xue)習(xi),顯(xian)著(zhu)提(ti)高(gao)醫(yi)學(xue)圖(tu)像(xiang)分(fen)類(lei)器(qi)的(de)準(zhun)確(que)性(xing)。具(ju)體(ti)來(lai)說(shuo),結(jie)果(guo)表(biao)明(ming)自(zi)監(jian)督(du)預(yu)訓(xun)練(lian)優(you)於(yu)監(jian)督(du)預(yu)訓(xun)練(lian),即(ji)使(shi)在(zai)完(wan)整(zheng)的(de) ImageNet 數據集(1400 萬幅圖像和 2.18 萬個類別)用於監督預訓練時也是如此。
fenbieshiyongyuneiweibiaojihebiaojishujuduigexiangrenwujinxingyuxunlianheweitiao,haishiyongzaibutonglinchuanghuanjingzhonghuodedelingyigeshujujizuoweipianyishujuji,yijinyibupingguwomendefangfaduiyuwaishujudewenjianxing。duiyuxiongbu X 射線任務,使用 ImageNet 或 CheXpert 數據進行自監督預訓練可以提高泛化能力,同時使用兩者還可以進一步提高此能力。正如預期的那樣,當僅使用 ImageNet 進行自監督預訓練時,與僅使用域內數據進行預訓練相比,該模型的表現更差。
為測試分布偏移下的表現,對於各項任務,額外提供在不同臨床環境下收集的標記數據集以進行測試。發現使用自監督預訓練(同時使用 ImageNet 和 CheXpert 數據)時,分布偏移數據集 (ChestX-ray14) 的表現有所提升,比 CheXpert shujujideyuanshitishenggengweimingxian。zheyifaxianpojujiazhi,yinweifenbupianyixiadefanhuanengliduiyulinchuangyingyongzhiguanzhongyao。zaipifubingxuerenwuzhong,womenguanchadaomouyidandudepianyishujujijuyouleisiqushi,gaishujujishoujizipifuaizhensuo,juyoujiaogaodeexingjibingfabinglv。zhebiaomingzijiandubiaozhengduifenbupianyidewenjianxingzaibutongrenwujianjuyouyizhixing。
用於胸部 X 射線解讀任務的分布偏移數據集模型評估。我們在沒有進一步微調(零樣本遷移學習)deqingkuangxia,shiyongzaiyuneishujushangxunliandemoxingduiewaidepianyishujujijinxingyuce。womenguanchadao,zijianduyuxunlianhuichanshenggenghaodebiaozheng,duifenbupianyigengwenjian
用於皮膚病學任務的分布偏移數據集模型評估。結果普遍表明,自監督預訓練模型可以在分布偏移中得到更好的泛化,其中 MICLe 預訓練對泛化能力的提升最為明顯
通過在不同分數的標記訓練數據上對模型進行微調,進一步研究了用於醫學圖像分類的自監督模型的標記效率。我們對 Derm 和 CheXpert 訓練數據集使用 10% 到 90% debiaoqianfenshu,bingshiyongpifubingxuerenwudebutongkeyongbiaoqianfenshuyanjiuxingnengruhebianhua。shiyongzijiandumoxingjinxingyuxunliankeyimibuyixuetuxiangfenleibiaoqianxiaolvdixiadeqingkuang,bingqiezaicaiyangdebiaoqianfenshuzhong,zijiandumoxingbiaoxianshizhongyouyujiandujixian。jieguohaibiaoming,shiyongjiaoshaodebiaojishilijinxingweitiaoshi,MICLe 會按比例提升標簽效率。事實上,MICLe 僅使用 20% 的 ResNet-50(4 倍)訓練數據和 30% 的 ResNet152(2 倍)訓練數據就能夠與基線持平。
自動駕駛
Corner Case終結者
自監督學習
當自動駕駛汽車在行駛過程中,需要實時理解各種交通參與者的運動,這些運動狀態信息對於各個技術模塊來說都非常重要,涉及檢測、跟蹤、預測、規劃等等。
自(zi)動(dong)駕(jia)駛(shi)汽(qi)車(che)通(tong)常(chang)配(pei)有(you)多(duo)個(ge)傳(chuan)感(gan)器(qi),其(qi)中(zhong)最(zui)常(chang)用(yong)的(de)是(shi)激(ji)光(guang)雷(lei)達(da)。因(yin)此(ci),如(ru)何(he)從(cong)點(dian)雲(yun)中(zhong)獲(huo)得(de)其(qi)他(ta)交(jiao)通(tong)參(can)與(yu)者(zhe)的(de)運(yun)動(dong)信(xin)息(xi)是(shi)一(yi)個(ge)重(zhong)要(yao)課(ke)題(ti),並(bing)且(qie)存(cun)在(zai)如(ru)下(xia)挑(tiao)戰(zhan):交通參與者的類別不一樣,每個類別都表現出特定的運動行為:
傳統做法是通過識別場景中其它交通參與者
genjusuoguancedaodelishixinxi,laiyucejiaotongchangjinghuiruhebianhua,congershixianyuce。danshi,daduoshushibiemoxingdoushiweijianceruoganyizhileibiedewutierxunliande。zaishijiqingkuangzhong,jingchanghuiyushangmeichuxianguodewutileibie。zhekendingbushichangjiuzhiji。
通過估計激光雷達點雲每個點的3D運動來從點雲中估計場景流
但這樣做對計算的要求太高了,自動駕駛車又特別需要達到實時性,所以根本無法進行實際應用。
基於BEV(bird’s eye view)的方式
bajiguangleidadedianyunhuachengyigegexiaowangge,meigewanggedanyuanbeichengweitizhu,dianyundeyundongxinxikeyitongguosuoyoutizhudeweiyixianglianglaimiaoshu,gaiweiyixiangliangmiaoshulemeigetizhuzaidimianshangdeyidongdaxiaohefangxiang。
zhezhongbiaozhengfangfachenggongjianhualechangjingyundong,fanzhengzhixuyaokaolvzaishuipingfangxiangshangdeyundongqingkuang,erbuyongtebiekaolvchuizhifangxiangshangdeyundong。zhezhongfangshidesuoyouguanjiancaozuodoukeyitongguo2D卷積進行,計算速度非常快。但是,這種方式需要依靠大量帶有標注的點雲數據,但點雲數據的標注成本比普通圖像更高。
據統計,一輛自動駕駛汽車每天會產生超過1TB的數據,但僅有不到5%的數據被利用,若能把其他數據也充分利用起來,在沒有手工標注的數據上來進行學習,那可就太高效了。
關於自監督學習的思考
1.理論原理
jinguanzijianduxuexiqudelehenhaodexiaoguo,danqibeihoudeshuxueyuanlihelilunjibenbingmeiyoutebiezhashi,daduotongguoshiyanjieguofantuimoxingjiegouhecelvedexiaoguo,kenengzaochenghenduoyanjiuzoulewanlu,conglilunjichuchufa,zhidazuizhongmubiaodexiaoguokenenghuigenghao。
2.替代任務的構建
當(dang)前(qian)替(ti)代(dai)任(ren)務(wu)的(de)構(gou)建(jian)特(te)別(bie)是(shi)視(shi)頻(pin)方(fang)向(xiang),多(duo)與(yu)下(xia)遊(you)任(ren)務(wu)為(wei)主(zhu)導(dao),沒(mei)有(you)特(te)定(ding)的(de)範(fan)式(shi)或(huo)者(zhe)規(gui)則(ze)。替(ti)代(dai)任(ren)務(wu)所(suo)能(neng)完(wan)成(cheng)的(de)任(ren)務(wu),就(jiu)是(shi)自(zi)監(jian)督(du)模(mo)型(xing)能(neng)完(wan)成(cheng)任(ren)務(wu)的(de)邊(bian)界(jie)。替(ti)代(dai)任(ren)務(wu)的(de)五(wu)花(hua)八(ba)門(men),導(dao)致(zhi)各(ge)類(lei)任(ren)務(wu)的(de)千(qian)差(cha)萬(wan)別(bie),沒(mei)有(you)辦(ban)法(fa)比(bi)較(jiao)性(xing)能(neng)優(you)劣(lie),隻(zhi)能(neng)是(shi)單(dan)純(chun)的(de)網(wang)絡(luo)在(zai)另(ling)一(yi)個(ge)任(ren)務(wu)上(shang)的(de)應(ying)用(yong),當(dang)前(qian)圖(tu)片(pian)領(ling)域(yu)多(duo)基(ji)於(yu)多(duo)種(zhong)數(shu)據(ju)增(zeng)強(qiang)方(fang)法(fa)構(gou)建(jian)替(ti)代(dai)任(ren)務(wu),而(er)視(shi)頻(pin)領(ling)域(yu)也(ye)可(ke)以(yi)提(ti)出(chu)統(tong)一(yi)的(de)構(gou)建(jian)方(fang)式(shi)。能(neng)夠(gou)通(tong)過(guo)“半自動”方式做出來的替代任務少之又少,在各類的圖像算法應用中,可能是影響自監督方法適應性的絆腳石。
3.能否構建直通下遊任務的端到端學習
已(yi)經(jing)發(fa)現(xian)自(zi)監(jian)督(du)中(zhong)有(you)明(ming)顯(xian)的(de)語(yu)義(yi)分(fen)割(ge)特(te)征(zheng),在(zai)對(dui)比(bi)模(mo)型(xing)後(hou)端(duan)加(jia)入(ru)分(fen)割(ge)分(fen)支(zhi)網(wang)絡(luo)會(hui)不(bu)會(hui)對(dui)網(wang)絡(luo)學(xue)習(xi)有(you)幫(bang)助(zhu),抑(yi)或(huo)是(shi)直(zhi)接(jie)訓(xun)練(lian)得(de)到(dao)可(ke)使(shi)用(yong)的(de)分(fen)割(ge)網(wang)絡(luo),都(dou)是(shi)值(zhi)得(de)研(yan)究(jiu)的(de)問(wen)題(ti)。
4.除對比的其他形式構建特征提取網絡
本ben質zhi上shang,對dui比bi網wang絡luo是shi除chu去qu常chang規gui網wang絡luo之zhi外wai,訓xun練lian得de到dao特te征zheng表biao示shi的de一yi種zhong方fang式shi而er已yi,與yu前qian文wen提ti到dao的de自zi編bian碼ma器qi有you異yi曲qu同tong工gong之zhi妙miao。對dui比bi學xue習xi的de成cheng功gong在zai於yu,其qi訓xun練lian得de到dao的de特te征zheng提ti取qu網wang絡luo,在zai下xia遊you任ren務wu中zhong表biao現xian優you異yi,也ye是shi所suo提ti特te征zheng有you效xiao的de表biao現xian。由you此ci我wo們men可ke以yi得de到dao啟qi發fa,還hai有you沒mei有you其qi他ta的de形xing式shi構gou建jian訓xun練lian網wang絡luo,也ye能neng夠gou提ti取qu得de到dao有you效xiao特te征zheng。相xiang信xin新xin模mo式shi的de提ti出chu肯ken定ding也ye會hui和he對dui比bi學xue習xi一yi樣yang,引yin領ling一yi波bo研yan究jiu浪lang潮chao。
5.廣闊天地,大有可為
自(zi)監(jian)督(du)學(xue)習(xi)還(hai)處(chu)於(yu)探(tan)索(suo)階(jie)段(duan),有(you)很(hen)多(duo)可(ke)以(yi)深(shen)入(ru)探(tan)究(jiu)的(de)部(bu)分(fen),相(xiang)信(xin)無(wu)論(lun)在(zai)學(xue)術(shu)界(jie)和(he)工(gong)業(ye)界(jie)自(zi)監(jian)督(du)學(xue)習(xi)都(dou)會(hui)有(you)廣(guang)泛(fan)的(de)應(ying)用(yong)。作(zuo)為(wei)深(shen)度(du)學(xue)習(xi)中(zhong)的(de)一(yi)種(zhong)魔(mo)法(fa),還(hai)需(xu)要(yao)更(geng)多(duo)的(de)人(ren)來(lai)挖(wa)掘(jue)其(qi)潛(qian)能(neng),創(chuang)造(zao)更(geng)多(duo)的(de)神(shen)跡(ji)。
藍海大腦超融合大數據一體機(融合計算、網絡、存儲、 GPU、虛擬化的一體機; 支持主流虛擬化平台如Vmware、Redhat、Microsoft Hyper-V 等;支持在線壓縮、重複數據自動刪除 、數據保護、容災備份及雙活等)自監督學習保駕護航,為自監督學習的發展提供了重要的後勤保障工作。