模擬仿真|深度學習|GAN|數字孿生
AI虛擬人|冬奧會|圖像轉換|自監督學習
隨著模擬仿真、人工智能、深度學習的快速發展,GAN技術的脫穎而出給圖神經網絡的發展帶來了巨大保障。
冬奧會天氣預報人是假的?
2022
滿滿的黑科技,絕對是本屆冬奧會的一大亮點。
無論是驚豔的開幕式,還是場館內外的建設,無不因為科技,一次次引起輿論的驚歎。
然而,萬萬沒想到的是,就連給選手和觀眾的天氣實時播報,竟然也達到了一個新的高度:
看到這張圖片,你可能會想,這不是《中國天氣》的主持人馮殊嗎?
但事實並非如此。
圖中在聲情並茂播放天氣的,並不是他本人,而是一個純粹的AI虛擬人——馮小殊。
那麼馮小殊是怎樣煉成的呢?
從效果上看很明顯,人類主持人馮殊是他的訓練目標。
馮小殊背後的“殺手鐧”是數字孿生虛擬人技術。
他之所以能分清麵部、表情、肢體動作的整體自然度和本尊真假難辨,主要結合GAN和深度神經網絡渲染技術。
而且訓練周期隻有一周。
值得一提的是,在語音專家模型、嘴巴專家模型和人臉渲染專家模型的訓練下,“馮小殊”準確地學習馮殊的嘴部動作、眼部和麵部肌肉之間的協調性。
北京冬奧會期間,馮小殊將繼續播報“冬奧公眾觀賽氣象指數“,涵蓋戶外觀賽的人體感受和健康提示,包括體感寒涼指數、穿衣指數、感冒指數、凍傷指數、防曬指數、護目鏡指數等氣象指標,為觀賽人群及時傳遞戶外場館精細化氣象指數服務信息,為公眾健康、安全觀賽提供氣象條件參考依據。
GAN生成圖像綜述
2022
根據不同GAN所擁有的生成器和判別器的數量,可以將GAN圖像生成的方法概括為三類:直接方法,迭代方法和分層方法。
GAN在圖像生成中的三類方法
直接法
早期GANs都遵循在模型中使用一個生成器和一個判別器的原理,並且生成器和判別器的結構是直接的,沒有分支。如GAN 、DCGAN 、ImprovedGAN,InfoGAN ,f-GAN 和GANINT-CLS 。這類方法在設計和實現上比較容易,通常也能得到良好的效果。
分層法
分層法的主要思想是將圖像分成兩部分,如“樣式和結構”和“前景和背景”,zaiqimoxingzhongshiyonglianggeshengchengqihelianggejianbieqi,qizhongbutongdeshengchengqishengchengtuxiangdebutongbufen,ranhouzaijieheqilai。lianggeshengchengqizhijiandeguanxikeyishibinglianhuochuanlian。
以SS-GAN為例,其使用兩個GAN,一個Structure-GAN用於生成表麵結構,然後再由Style-GAN補充圖片細節,最後生成圖片,整體結構如下所示:
SS-GAN的分層結構
迭代法
迭代法使用具有相似甚至相同結構的多個生成器,經過迭代生成從粗到細的圖像。
以LAPGAN為例:LAPGAN中的多個生成器執行相同的任務:最(zui)低(di)級(ji)別(bie)的(de)生(sheng)成(cheng)器(qi)僅(jin)將(jiang)噪(zao)聲(sheng)向(xiang)量(liang)作(zuo)為(wei)輸(shu)入(ru)並(bing)輸(shu)出(chu)圖(tu)像(xiang),而(er)其(qi)他(ta)生(sheng)成(cheng)器(qi)都(dou)從(cong)前(qian)一(yi)個(ge)生(sheng)成(cheng)器(qi)獲(huo)取(qu)圖(tu)像(xiang)並(bing)將(jiang)噪(zao)聲(sheng)矢(shi)量(liang)作(zuo)為(wei)輸(shu)入(ru),這(zhe)些(xie)生(sheng)成(cheng)器(qi)結(jie)構(gou)的(de)唯(wei)一(yi)區(qu)別(bie)在(zai)於(yu)輸(shu)入(ru)/輸出尺寸的大小,每一次迭代後的圖像都擁有更多清晰的細節。
LAPGAN的迭代結構
GAN-圖像轉換
2022
圖像到圖像的轉換被定義為將一個場景的可能表示轉換成另一個場景的問題,例如圖像結構圖映射到RGBtuxiang,huozhefanguolai。gaiwentiyufenggeqianyiyouguan,qicaiyongneirongtuxiangheyangshituxiangbingshuchujuyouneirongtuxiangdeneirongheyangshituxiangdeyangshidetuxiang。tuxiangdaotuxiangzhuanhuankeyibeishiweifenggeqianyidegaikuo,yinweitabujinxianyuzhuanyituxiangdefengge,haikeyicaozongduixiangdeshuxing。
圖像到圖像的轉換可分為有監督和無監督兩大類,根據生成結果的多樣性又可分為一對一生成和一對多生成兩類:
有監督下圖像到圖像轉換
在原始GAN中,因為輸出僅依賴於隨機噪聲,所以無法控製生成的內容。但cGAN的提出使得我們可以將條件輸入y添加到隨機噪聲z,以便生成的圖像由G(z,y)定義。條件y可以是任何信息,如圖像標注,對象的屬性、文本描述,甚至是圖片。
CGAN的結構
如果引入圖片作為監督信息,cGAN就可以完成一些paired data才能完成的任務,如把輪廓圖轉化成真實圖片,把mask轉化成真實圖,把黑白圖轉化成真實圖等。其中最具代表性的工作為pix2pix:
pix2pix結構圖
無監督圖像到圖像轉換
雖然有監督下圖像轉換可以得到很好的效果,但需要的條件信息以及paired image成為其很大的限製。但如果用無監督學習,學習到的網絡可能會把相同的輸入映射成不同的輸出,這就意味著,我們輸入任意xi並不能得到想要的輸出yi。
CycleGAN 、DualGAN 和DiscoGAN突破了這個限製,這幾項工作都提出了一致/重構損失(consistent loss),采取了一個直觀的思想:jishengchengdetuxiangzaiyongniyingsheshengchenghuiquyinggaiyushurudetuxiangjinkenengjiejin。zaizhuanhuanzhongshiyonglianggeshengchengqihelianggepanbieqi,lianggeshengchengqijinxingxiangfandezhuanhuan,shituzaizhuanhuanzhouqihoubaoliushurutuxiang。
以CycleGAN為例,在CycleGAN中,有兩個生成器,Gxy用於將圖像從域X傳輸到Y,Gxy用於執行相反的轉換。此外,還有兩個判別器Dx和Dy判斷圖像是否屬於該域。
CycleGAN的生成效果
一對一生成到一對多生成
從pix2pix到CycleGAN係列,再到UNIT,這些方法實現的image-to-image translation不管是有監督的還是無監督的,都是一對一的,也就是說輸入一張圖片隻能產生一種風格,缺乏多樣性。但其實大多數情況下,image translationshiduoduiduode,yejiushiyizhangtupianduiyingbutongfenggedezhuanhuantupian。biruwomenshejiyifushi,yizhanglunkuotuqishikeyishejichengbutongfenggedeyifu。zaibirutongyigechangjing,butongdeguangzhaotiaojianjiushiyigemoshi,buyidingzhiyoubaitianheheiye,haikenengyoubangwanqingchendeng。
BicycleGANshouxianduicijinxinglechangshi,qizaimoxingzhongtianjiasuijizaosheng,tongguosuijicaiyangshizaoshengdedaobutongdebiaoda,bingzaishuchuyuqianzaikongjianshangtianjiashuangxiangyingshe。shuangxiangyingshezhideshi:不bu僅jin可ke以yi由you潛qian在zai編bian碼ma映ying射she得de到dao輸shu出chu也ye可ke以yi由you輸shu出chu反fan過guo來lai生sheng成cheng對dui應ying的de潛qian在zai編bian碼ma,這zhe可ke以yi防fang止zhi兩liang個ge不bu同tong的de潛qian在zai編bian碼ma生sheng成cheng同tong樣yang的de輸shu出chu,避bi免mian輸shu出chu的de單dan一yi性xing。
但直接用不同的隨機噪聲來產生多樣化的結果,由於mode collapse的存在,很容易訓練失敗。MUNIT和DRITUNIT的基礎上,將latent code進一步細化為內容編碼 C和風格編碼 S。不同domain的圖像共享內容編碼空間 C 而獨享風格編碼空間 S ,將內容編碼C與不同的風格編碼S結合起來就能得到更棒的多樣性的結果。
MUNIT將latent code分為內容c和風格c
如下所示,BicycleGAN、MUNIT和DRIT都取得了不錯的生成結果:
GAN模型分析
2022
穩定性差
穩定性差指的是GAN在訓練的過程中很難把握好梯度消失和梯度錯誤之間的平衡。我們先看看為什麼會出現梯度消失的問題。先關注判別網絡,若 和 已知,令式(2)的導數為零,可解得最優的判別為:
將其代入到式(7)可得:
其中 。
也就是說,當判別網絡最優的時候,生成網絡的目標是最小化分布 和 之間的 散度。當兩個分布相同時 散度為零,即生成網絡的最優值 對應的損失為 。
然而實際情況是,當用諸如梯度下降等方式去最小化目標函數 的時候,生成網絡的目標函數關於參數的梯度為零,無法更新。為什麼會出現這種情況呢?原因是 散度本身的特性:當兩個分布沒有重疊的時候,它們之間的 散度恒為 。容易發現此時目標函數為0,意味著最優判別器的判別全部正確,對所有生成數據的輸出均為0,因此對目標參數求導仍為0,帶來了梯度消失的難題。
因此在實際中,我們往往不將判別網絡訓練到最優,隻進行 citiduxiajiang,yibaozhengshengchengwangluodetidurengrancunzai。danshiruguoyinweixunliancishutaishaodaozhipanbiewangluopanbienenglitaicha,zeshengchengwangluodetiduweicuowudetidu。ruhequeding 這個超參數,平衡好梯度消失和梯度錯誤之間的平衡是個難題,這也是為什麼說GAN在訓練時穩定性差的原因。
模型坍塌
除了穩定性差,GAN在訓練的時候還容易出現模型坍塌的問題。模型坍塌指生成網絡傾向於生成更“安全”的樣本,即生成數據的分布聚集在原始數據分布的局部。下麵我們看看為什麼會出現這個問題。
將最優判別網絡 代入式(4),得到生成網絡的目標函數為:
此時, 。其中 屬於有界函數,因此生成網絡的最優值更多受逆向KL散度 的影響。
什麼是前向和逆向KL散度?以它們為目標進行優化會帶來什麼結果?我們先看看第一個問題:
KL散度是一種非對稱的散度,在計算真實分布 和生成分布 之間的KL散度的時候,按照順序不同,分為前向KL散度和逆向KL散度:
在前向KL散度中:
當 而 時, 。意味著 的時候, 無論怎麼取值都可以,都不會對前向KL散度的計算產生影響,因此擬合的時候不用回避 的點;
當 而 時, 。意味著要減小前向KL散度, 必須盡可能覆蓋 的點。
因此,當以前向KL散度為目標函數進行優化的時候,模型分布 會盡可能覆蓋所有真實分布 的點,而不用回避 的點。
在逆向KL散度中:
當 而 時, 。意味著要減小逆向KL散度, 必須回避所有 的點;
當 時,無論 取什麼值, 。意味著 不需要考慮考慮是否需要盡可能覆蓋所有真實分布 的點。
因此,當以逆向KL散度為目標函數進行優化的時候,模型分布 會盡可能避開所有真實分布 的點,而不需要考慮是否覆蓋所有真實分布 的點。
下圖給出了當真實分布為高斯混合分布,模型分布為單高斯分布的時候,用前向KL散度和逆向KL散度進行模型優化的結果,可以發現使用逆向KL散度進行優化會帶來模型坍縮的問題。
因此,基於上述兩個問題,GAN難訓練的問題是出了名的。為了解決這些問題,後續又有人提出了各式各樣的GAN,例如W-GAN,通過用Wasserstein距離代替JS散度,改善了GAN穩定性差的問題,同時一定程度上緩解了模型坍縮的問題。
GAN複原:偉大詩人泰戈爾
2022
當近百年前的黑白影像披上了色彩,它的曆史意義會不會多一層呢?
近日,一段泰戈爾1930年演講珍貴影像被AI修複還原。
那麼是運用了什麼技術將泰戈爾影像還原的呢?
RIFE,Deep-Exemplar-based-Video-Colorization,GPEN等一係列人工智能項目為泰戈爾影像的還原做出了巨大貢獻。
其中RIFE是一個實時視頻插幀方案,能實現老舊影像對高幀率的需求。
另外,在此另一個補幀項目是DAIN。
Deep-Exemplar-based-Video-Colorization是shi來lai自zi一yi種zhong結jie合he了le圖tu像xiang檢jian索suo與yu圖tu像xiang著zhe色se的de模mo型xing。該gai模mo型xing首shou先xian會hui從cong大da量liang參can照zhao圖tu像xiang中zhong檢jian索suo和he灰hui度du圖tu相xiang似si的de圖tu像xiang,然ran後hou再zai將jiang該gai參can照zhao圖tu像xiang的de配pei色se方fang案an遷qian移yi到dao灰hui度du圖tu中zhong,實shi現xian了le非fei常chang好hao的de著zhe色se效xiao果guo。
GPEN(GAN prior embedded network,GAN先驗嵌入網絡)是新晉開源項目,由國人打造,對亞洲人像還原效果更為出色。
結果表明,其效果明顯優於最先進的嚴重損壞的人臉圖像複原(Blind face restoration)方法。
還有DeOldify:DeOldify 使用了NoGAN 進行訓練,NoGAN對於獲得穩定和豐富多彩的圖像是至關重要的。
NoGAN 訓練結合了 GAN (美妙的著色)的好處,同時消除了副作用(如視頻中閃爍對象)。
除了利用這些開源的AI模型,還結合了高超的後期技巧,百年前的老北京生活、上海時裝秀才能栩栩如生地出現在人們麵前。
藍海大腦液冷GPU工作站(可搭建於 NVIDIA 4 × A100 / 3090 / P6000 / RTX6000;使用 NVLink + NVSwitch的最高GPU通信;4個用於 GPU Direct RDMA的NIC(1:1 GPU比率);最高4 x NVMe用於GPU係統盤,帶有 AIOM雙電源冗餘供電係統、防雷擊、防浪湧保護)是提供 GPU 算力的高性能計算,服務於深度學習、科學計算、圖形可視化、視頻處理多種應用場景。藍海大腦液冷GPU工作站為GAN技術的發展提供硬件保障。