美國麻省理工學院(MIT)的de一yi支zhi團tuan隊dui驚jing奇qi的de發fa現xian,隻zhi需xu要yao少shao數shu信xin息xi的de像xiang素su就jiu能neng夠gou識shi別bie出chu圖tu像xiang內nei的de目mu標biao。這zhe個ge發fa現xian為wei在zai線xian圖tu像xiang的de自zi動dong識shi別bie帶dai來lai了le巨ju大da的de進jin步bu,最zui終zhong為wei計ji算suan機ji像xiang人ren類lei那na樣yang觀guan察cha事shi物wu提ti供gong了le基ji礎chu。MIT計算機科學與人工智能實驗室的助教Antonio Torralba和同事試圖找到最小量的信息,即從能夠提供內容有用表示的圖像中導出最短的數字表示。

導(dao)出(chu)這(zhe)樣(yang)一(yi)種(zhong)短(duan)小(xiao)的(de)表(biao)示(shi)將(jiang)會(hui)是(shi)很(hen)重(zhong)要(yao)的(de)的(de)一(yi)步(bu),它(ta)使(shi)得(de)對(dui)因(yin)特(te)網(wang)上(shang)百(bai)萬(wan)億(yi)副(fu)圖(tu)像(xiang)進(jin)行(xing)自(zi)動(dong)分(fen)類(lei)成(cheng)為(wei)可(ke)能(neng)。現(xian)在(zai),搜(sou)索(suo)圖(tu)像(xiang)的(de)唯(wei)一(yi)方(fang)法(fa)是(shi)基(ji)於(yu)每(mei)幅(fu)圖(tu)片(pian)人(ren)工(gong)鍵(jian)入(ru)的(de)文(wen)本(ben)標(biao)題(ti),而(er)許(xu)多(duo)圖(tu)像(xiang)都(dou)缺(que)乏(fa)這(zhe)樣(yang)的(de)信(xin)息(xi)。自(zi)動(dong)識(shi)別(bie)也(ye)為(wei)人(ren)們(men)檢(jian)索(suo)那(na)些(xie)從(cong)數(shu)字(zi)相(xiang)機(ji)下(xia)載(zai)到(dao)計(ji)算(suan)機(ji)的(de)圖(tu)片(pian)提(ti)供(gong)了(le)一(yi)種(zhong)方(fang)法(fa),而(er)且(qie)不(bu)需(xu)要(yao)手(shou)工(gong)檢(jian)查(zha)每(mei)個(ge)標(biao)題(ti)。最(zui)後(hou)它(ta)將(jiang)會(hui)引(yin)發(fa)真(zhen)正(zheng)的(de)機(ji)器(qi)視(shi)覺(jiao),也(ye)許(xu)某(mou)天(tian)將(jiang)會(hui)使(shi)機(ji)器(qi)人(ren)弄(nong)懂(dong)它(ta)們(men)相(xiang)機(ji)中(zhong)數(shu)據(ju)的(de)意(yi)義(yi),並(bing)描(miao)繪(hui)出(chu)它(ta)們(men)在(zai)哪(na) 。
Torralba說,“我們都在嚐試找到圖像的最短代碼,這樣如果兩幅圖像具有相似的(數字)序列,它們就可能是相似的,即可能由大致相同的目標,大致相同的結構組成”。如果一個圖像通過說明文字或標題來識別,那麼其它與數字代碼匹配的圖像可能顯示相同的目標(例如一輛車,一棵樹,一個人),因此與圖片聯係在一起的名字會轉移到另一個。
Torralba說,利用這種方法識別圖像,“對於海量圖像,即使相對較簡單的算法也能夠執行的很好”。他將在今年6月Alaska舉行的機器視覺和模式識別會議上公開他的最新發現。這個工作是和紐約大學庫朗研究所的Rob Fergus和耶路撒冷的希伯來大學的Yair Weiss合作完成的。
需要識別目標的信息 為了找到人們識別一副圖像中的目標需要的圖像信息有多小,Torralba和他的合作者嚐試將圖像降低到越來越低的分辨率,然後觀察在每層人們能夠識別的圖像有多少。“我們能夠識別出圖像內有什麼,即使分辨率非常低,因為我們知道有關圖像的許多東西”,他說,“你需要識別大多數圖像的信息量大約是32比32”。作為對比,即使Google搜索中顯示的小的縮略圖的典型值是100比100。
即使一部廉價的數字相機產生的圖像也由數百萬像素的數據組成,每個像素一般由24bits的數據組成。但Torralba和同事開發的數學係統能夠將每幅圖片的數據簡化更多,並且證明了,即使圖像被編碼而成的數字表示包含的數據隻有256到1024bits時,許多圖像都是可識別的。
Torralba說,對每幅圖像都使用這樣少的數據,就有可能利用一台普通PC,zaiyimiaozhongneiduishujukuneishangbaiwanfutuxiangsousuoxiangsidetupian。buxiangqitayaoqiujiangtuxiangfenjiechengbaohanbutongmubiaobufendefangfa,zhezhongfangfashiyongdezhengfutuxiang,yinciwuxurengongganyujiunengjiandandeyingyongdaodashujuji。
舉個例子,Torralba和同事使用其開發的編碼係統,能夠將因特網上12900000幅圖像隻用600 Mbytes表示,這些數據小到足夠匹配當前大多數PC的RAM,也能存儲到記憶棒中。圖像數據庫和軟件使數據庫的搜索可在網上公開獲得。
現在對於最常見種類的圖像,匹配是有效的。Torralba說,“並不是創建所有的圖像都同等”。圖像越複雜或越獨特,就越不太可能正確的匹配。但對於圖片中最普通的目標來說,結果已經相當令人矚目了。