http://kadhoai.com.cn 2026-04-25 06:07:06 來源:南方都市報
“得益於大語言模型推動人工智能發展,圖形圖像學的研究和應用迎來新的機遇,正在推動大語言模型向大視覺模型發展。”2023年12月30日,在辭舊迎新之際,中國工程院院士、機ji器qi人ren視shi覺jiao感gan知zhi與yu控kong製zhi技ji術shu國guo家jia工gong程cheng研yan究jiu中zhong心xin主zhu任ren王wang耀yao南nan在zai第di十shi九jiu屆jie中zhong國guo圖tu象xiang圖tu形xing學xue學xue會hui青qing年nian科ke學xue家jia會hui議yi上shang,分fen享xiang機ji器qi視shi覺jiao智zhi能neng化hua發fa展zhan的de最zui新xin趨qu勢shi。
在(zai)接(jie)受(shou)南(nan)都(dou)記(ji)者(zhe)專(zhuan)訪(fang)時(shi),王(wang)耀(yao)南(nan)表(biao)示(shi),人(ren)工(gong)智(zhi)能(neng)讓(rang)機(ji)器(qi)視(shi)覺(jiao)走(zou)向(xiang)智(zhi)能(neng)化(hua),更(geng)高(gao)的(de)算(suan)力(li)能(neng)夠(gou)支(zhi)撐(cheng)大(da)視(shi)覺(jiao)模(mo)型(xing)的(de)訓(xun)練(lian)。不(bu)過(guo),更(geng)聰(cong)明(ming)的(de)大(da)視(shi)覺(jiao)模(mo)型(xing)還(hai)需(xu)要(yao)更(geng)高(gao)的(de)算(suan)力(li)水(shui)平(ping)、更好的模型架構和更有效的學習算法。
本次會議由中國圖象圖形學學會主辦,琶洲實驗室、華南理工大學、中山大學、中國圖象圖形學學會青年工作委員會承辦。
談行業趨勢
從視覺計算走向視覺智能
王耀南:我國的機器視覺研究已有接近40年的曆史,最初是從傳感器的研究開始的,即:將光的信息轉化成圖片信息。接下來要做的是視覺的處理,包括將獲得的圖片增強,使其變得更清晰。
有(you)了(le)清(qing)晰(xi)的(de)圖(tu)像(xiang)後(hou),我(wo)們(men)需(xu)要(yao)從(cong)圖(tu)片(pian)中(zhong)獲(huo)取(qu)我(wo)們(men)感(gan)興(xing)趣(qu)的(de)目(mu)標(biao)。例(li)如(ru),在(zai)無(wu)人(ren)駕(jia)駛(shi)領(ling)域(yu),機(ji)器(qi)視(shi)覺(jiao)需(xu)要(yao)對(dui)圖(tu)片(pian)中(zhong)的(de)目(mu)標(biao)進(jin)行(xing)檢(jian)測(ce),要(yao)回(hui)答(da)哪(na)些(xie)是(shi)人(ren)、哪些是車的問題。
這就是我們所說的機器視覺的三大領域。我把它歸結為:成像、處理和理解。
jiqishijiaoyijingcongguoqudeshijiaojisuanzouxianglejintiandeshijiaozhineng。shijiaojisuanjieherengongzhinenghou,renzhishuipingdedaoletisheng,zengqiangleduifuzahuanjingdelijienengli,zhenggeshijiaozhinenghuaxingyezaiquniandedaolekuaisufazhan。
機器視覺智能化發展的方向是進行廣泛應用,應用到工業檢測、智能製造以及衛星遙感等領域。
談機器視覺,一定要談它的應用,應用驅動技術發展。中國圖象圖形學學會有30個專委會,主要圍繞圖形圖像展開研究,為國民經濟服務。這些技術的應用場景十分廣泛,包括工業、農業、地理信息係統、遙感、國土資源等。
一個人一出生就能看到這個世界,之後理解這個世界,80%的信息靠視覺獲取。機器視覺是要模擬人的眼睛,最終達到人眼的水平,並在部分方麵超過人眼,要看得更遠、看得更清。
談大視覺模型
大視覺模型會越來越聰明
王耀南:大語言模型是用書本上、語言上、文字上的知識作為數據,進行訓練的神經網絡模型,能夠根據它所學的知識進行推理和回答,是一種數據驅動的人工智能。
大視覺模型的數據則主要來自各種圖像,包括人類和自然界產生的視覺數據。例如,醫學大視覺模型就是將人的器官、病變的圖像等作為視覺數據輸入到大模型中,進行訓練得到,可以像大夫一樣看懂CT照片,能夠達到病人來看病後,拍照完便能推理出病人病情的效果。
當前的視覺大模型並沒有大家想象的和人腦一樣,差距還很大。隨著學習的數據的增多、模型參數的調整,模型會越來越大、知識也會越來越多,其智能水平就會越來越高,越來越聰明。
我們需要提高算力水平,加快計算速度,以能夠更快地建立模型;設計更好的模型架構,包括可解釋性更強、更安全可控;還需要研究更有效的學習算法。
事實上,視覺大模型並不是這幾年才有的,是一步一步發展過來的。在上世紀80年(nian)代(dai),隨(sui)著(zhe)人(ren)工(gong)智(zhi)能(neng)的(de)發(fa)展(zhan),人(ren)們(men)開(kai)始(shi)研(yan)究(jiu)神(shen)經(jing)網(wang)絡(luo)的(de)時(shi)候(hou),就(jiu)已(yi)經(jing)有(you)了(le)。隻(zhi)是(shi),最(zui)近(jin)幾(ji)年(nian)的(de)算(suan)力(li)和(he)算(suan)法(fa)能(neng)力(li)提(ti)高(gao)了(le),人(ren)們(men)可(ke)以(yi)嚐(chang)試(shi)構(gou)建(jian)大(da)模(mo)型(xing),產(chan)生(sheng)了(le)大(da)語(yu)言(yan)模(mo)型(xing)和(he)大(da)視(shi)覺(jiao)模(mo)型(xing)。過(guo)去(qu)算(suan)力(li)不(bu)夠(gou)的(de)時(shi)候(hou),大(da)家(jia)做(zuo)的(de)模(mo)型(xing)沒(mei)有(you)那(na)麼(me)大(da)。
談2024年展望
希望業務從廣州增長推向全國和世界
王耀南:湖南大學機器人視覺感知與控製技術國家工程研究中心在2022年已經入駐到位於粵港澳大灣區的廣州增城,建立了湖大粵港澳大灣區創新研究院(廣州增城)。
研究院主要進行機器智能視覺的研究和應用,包括智能製造、yiliaozhiyaodenglingyudeteshuzuoyejiqiren,yijitongyongdedashijiaomoxing。liru,zhexieyanjiuyunyongdaozhizaoyezhong,keyitidaidaliangderengong,wanchengchanpinzhiliangdejiance,tebieshi3C和高端零部件行業。當前,研究院已經開發了軟硬件係統,主要的功能是賦能廣東企業數字化、智慧化轉型,推動製造業發展。
此外,研究院也開展智能的機器視覺和控製係統,主要用於高端智能裝備的生產,例如工業互聯網軟件,這其中有非常多的算法。
廣東是改革開放和經濟主戰場的前沿,產業鏈、供gong應ying鏈lian齊qi全quan,製zhi造zao業ye企qi業ye很hen多duo,我wo們men來lai到dao廣guang東dong布bu局ju一yi是shi出chu於yu市shi場chang需xu求qiu。此ci外wai,我wo們men研yan究jiu中zhong心xin此ci前qian已yi有you不bu少shao研yan發fa團tuan隊dui在zai廣guang東dong落luo地di了le很hen多duo項xiang目mu,進jin行xing科ke技ji成cheng果guo的de轉zhuan化hua。
在2023年的上半年,我們確實遇到了一些挑戰,主要體現在零部件的供應方麵。2024年,我相信這些問題都會解決,廣東人工智能產業的產業鏈、供應鏈以及研發能力都會有所提升。在國內這個大市場裏,會開辟出新的賽道。在活力的氛圍下,大家主動作為、擔當和創新,挑戰都能解決。
我對廣東的人工智能產業發展充滿信心。過去30年裏,我們在科技自立自強方麵下了很多功夫,積累了很多科研成果。廣東是我國經濟第一大省。
womensuocongshiderengongzhinengyujiqirenzhegelingyuganshangleyigehaojiyu,zheliangnianbaozhaxingdizengchang,dailaihenduoxinshichang,ladonglexindechanyesaidao。weilaizhinengzhongduanjiangyuelaiyueduo,yejiangdaidongshengchanxingsheshishebeixingyedefazhan。zai2024年,我希望我們位於廣州增城的研究院能夠將業務推向全國和世界。