MIT開發新的成像軟件

http://kadhoai.com.cn 2026-04-28 09:19:17 來源：中國圖像網

美國麻省理工學院（MIT）的de一yi支zhi團tuan隊dui驚jing奇qi的de發fa現xian，隻zhi需xu要yao少shao數shu信xin息xi的de像xiang素su就jiu能neng夠gou識shi別bie出chu圖tu像xiang內nei的de目mu標biao。這zhe個ge發fa現xian為wei在zai線xian圖tu像xiang的de自zi動dong識shi別bie帶dai來lai了le巨ju大da的de進jin步bu，最zui終zhong為wei計ji算suan機ji像xiang人ren類lei那na樣yang觀guan察cha事shi物wu提ti供gong了le基ji礎chu。MIT計算機科學與人工智能實驗室的助教Antonio Torralba和同事試圖找到最小量的信息，即從能夠提供內容有用表示的圖像中導出最短的數字表示。

導(dao)出(chu)這(zhe)樣(yang)一(yi)種(zhong)短(duan)小(xiao)的(de)表(biao)示(shi)將(jiang)會(hui)是(shi)很(hen)重(zhong)要(yao)的(de)的(de)一(yi)步(bu)，它(ta)使(shi)得(de)對(dui)因(yin)特(te)網(wang)上(shang)百(bai)萬(wan)億(yi)副(fu)圖(tu)像(xiang)進(jin)行(xing)自(zi)動(dong)分(fen)類(lei)成(cheng)為(wei)可(ke)能(neng)。現(xian)在(zai)，搜(sou)索(suo)圖(tu)像(xiang)的(de)唯(wei)一(yi)方(fang)法(fa)是(shi)基(ji)於(yu)每(mei)幅(fu)圖(tu)片(pian)人(ren)工(gong)鍵(jian)入(ru)的(de)文(wen)本(ben)標(biao)題(ti)，而(er)許(xu)多(duo)圖(tu)像(xiang)都(dou)缺(que)乏(fa)這(zhe)樣(yang)的(de)信(xin)息(xi)。自(zi)動(dong)識(shi)別(bie)也(ye)為(wei)人(ren)們(men)檢(jian)索(suo)那(na)些(xie)從(cong)數(shu)字(zi)相(xiang)機(ji)下(xia)載(zai)到(dao)計(ji)算(suan)機(ji)的(de)圖(tu)片(pian)提(ti)供(gong)了(le)一(yi)種(zhong)方(fang)法(fa)，而(er)且(qie)不(bu)需(xu)要(yao)手(shou)工(gong)檢(jian)查(zha)每(mei)個(ge)標(biao)題(ti)。最(zui)後(hou)它(ta)將(jiang)會(hui)引(yin)發(fa)真(zhen)正(zheng)的(de)機(ji)器(qi)視(shi)覺(jiao)，也(ye)許(xu)某(mou)天(tian)將(jiang)會(hui)使(shi)機(ji)器(qi)人(ren)弄(nong)懂(dong)它(ta)們(men)相(xiang)機(ji)中(zhong)數(shu)據(ju)的(de)意(yi)義(yi)，並(bing)描(miao)繪(hui)出(chu)它(ta)們(men)在(zai)哪(na) 。

Torralba說，“我們都在嚐試找到圖像的最短代碼，這樣如果兩幅圖像具有相似的（數字）序列，它們就可能是相似的，即可能由大致相同的目標，大致相同的結構組成”。如果一個圖像通過說明文字或標題來識別，那麼其它與數字代碼匹配的圖像可能顯示相同的目標（例如一輛車，一棵樹，一個人），因此與圖片聯係在一起的名字會轉移到另一個。

Torralba說，利用這種方法識別圖像，“對於海量圖像，即使相對較簡單的算法也能夠執行的很好”。他將在今年6月Alaska舉行的機器視覺和模式識別會議上公開他的最新發現。這個工作是和紐約大學庫朗研究所的Rob Fergus和耶路撒冷的希伯來大學的Yair Weiss合作完成的。

需要識別目標的信息

為了找到人們識別一副圖像中的目標需要的圖像信息有多小，Torralba和他的合作者嚐試將圖像降低到越來越低的分辨率，然後觀察在每層人們能夠識別的圖像有多少。“我們能夠識別出圖像內有什麼，即使分辨率非常低，因為我們知道有關圖像的許多東西”，他說，“你需要識別大多數圖像的信息量大約是32比32”。作為對比，即使Google搜索中顯示的小的縮略圖的典型值是100比100。

即使一部廉價的數字相機產生的圖像也由數百萬像素的數據組成，每個像素一般由24bits的數據組成。但Torralba和同事開發的數學係統能夠將每幅圖片的數據簡化更多，並且證明了，即使圖像被編碼而成的數字表示包含的數據隻有256到1024bits時，許多圖像都是可識別的。

Torralba說，對每幅圖像都使用這樣少的數據，就有可能利用一台普通PC，zaiyimiaozhongneiduishujukuneishangbaiwanfutuxiangsousuoxiangsidetupian。buxiangqitayaoqiujiangtuxiangfenjiechengbaohanbutongmubiaobufendefangfa，zhezhongfangfashiyongdezhengfutuxiang，yinciwuxurengongganyujiunengjiandandeyingyongdaodashujuji。

舉個例子，Torralba和同事使用其開發的編碼係統，能夠將因特網上12900000幅圖像隻用600 Mbytes表示，這些數據小到足夠匹配當前大多數PC的RAM，也能存儲到記憶棒中。圖像數據庫和軟件使數據庫的搜索可在網上公開獲得。

現在對於最常見種類的圖像，匹配是有效的。Torralba說，“並不是創建所有的圖像都同等”。圖像越複雜或越獨特，就越不太可能正確的匹配。但對於圖片中最普通的目標來說，結果已經相當令人矚目了。

MIT開發新的成像軟件

相關新聞

編輯精選

工控原創