http://kadhoai.com.cn 2026-04-25 17:22:22 來源:阿丘科技
前言
我自己是做算法出身,喜歡思考問題的本質。比如,AI對(dui)於(yu)我(wo)們(men)整(zheng)個(ge)工(gong)業(ye)視(shi)覺(jiao)的(de)本(ben)質(zhi)到(dao)底(di)是(shi)什(shen)麼(me)。今(jin)天(tian)我(wo)把(ba)這(zhe)個(ge)不(bu)僅(jin)是(shi)我(wo)的(de)思(si)考(kao),也(ye)是(shi)阿(e)丘(qiu)科(ke)技(ji)整(zheng)個(ge)公(gong)司(si)的(de)思(si)考(kao)分(fen)享(xiang)給(gei)大(da)家(jia),供(gong)大(da)家(jia)參(can)考(kao)。但(dan)這(zhe)也(ye)是(shi)一(yi)個(ge)比(bi)較(jiao)初(chu)級(ji)的(de)思(si)考(kao),要(yao)在(zai)以(yi)後(hou)的(de)實(shi)踐(jian)中(zhong)深(shen)化(hua)。
今天我講的內容包含三個主題,第一個是講AI對於工業視覺到底意味著什麼;第二個是我們從整個技術發展周期的角度,看一看工業AI視覺發展的一個大的路線圖;第三個,也是必不可少的,要談一談我們對未來的一個趨勢和觀點的一些理解。
AI重構工業視覺
➔ 算法

首先我們來看第一個主題,AI對於工業視覺算法到底有什麼價值?
傳統算法,我用兩個關鍵詞來定義它,就是定量分析和特征工程。特征工程就是算不同的特征。後麵做判斷的時候,一堆的if···else···是傳統算法的一個特點。那AI這塊的話大家已經很了解了,基於樣本來做學習。我認為這是很本質的一個東西。
從功能角度出發,工業視覺算法可分為圖像處理、定位、檢測、測量、識別;從算法實現技術角度就是分類、識別、測量三大類。本質上,工業視覺算法將會或正在被AI全部重構,當然如果涉及到測量技術,即定量分析技術,傳統算法依然不可或缺。
AI重構工業視覺算法的價值體現在以下 3 個方麵:
1. 升維
AI通過升維來解決我們的一些複雜的分類和識別問題。包括複雜的背景、低對比度、柔性電子、一些強幹擾。這些東西原來傳統方法是沒問題的,但是用AI的話,我覺得能更加好。這個點大家是能夠肉眼可見的。後麵第二點和第三點可能未必肉眼可見,但實際上是更關鍵的。
2. 簡化、通用化
AI的(de)一(yi)大(da)優(you)勢(shi)是(shi)可(ke)以(yi)對(dui)算(suan)法(fa)問(wen)題(ti)做(zuo)極(ji)度(du)的(de)抽(chou)象(xiang),抽(chou)象(xiang)之(zhi)後(hou)較(jiao)為(wei)複(fu)雜(za)的(de)工(gong)業(ye)視(shi)覺(jiao)問(wen)題(ti)就(jiu)會(hui)變(bian)得(de)比(bi)較(jiao)簡(jian)單(dan),還(hai)有(you)一(yi)個(ge)就(jiu)是(shi)通(tong)用(yong)化(hua)。很(hen)多(duo)工(gong)業(ye)視(shi)覺(jiao)裏(li)麵(mian)比(bi)較(jiao)複(fu)雜(za)的(de)算(suan)法(fa)問(wen)題(ti),用(yong)兩(liang)到(dao)三(san)個(ge)比(bi)較(jiao)通(tong)用(yong)的(de)算(suan)法(fa)模(mo)塊(kuai)去(qu)訓(xun)練(lian)數(shu)據(ju),結(jie)果(guo)就(jiu)出(chu)來(lai)了(le),並(bing)且(qie)這(zhe)個(ge)指(zhi)標(biao)還(hai)非(fei)常(chang)優(you)秀(xiu)。
3. 降本
大家聽到這個東西好像有點反直覺,覺得AI對算力有要求,怎麼還能降本?
womenjuyigesuoyouzuochuantongsuanfaderendounenggoulijiedeyigelizi。birujihexingzhuangpipei,zhegeshuyushizhenggejiqishijiaolimian,chuantongsuanfaraobuguodezheyangdeyigesuanfa,taxuyaoshezhifeichangduodecanshu。ruguoyaoyonghao,gongchengshixuyaolijiejihepipeisuanfadejibenyuanli、參(can)數(shu)的(de)物(wu)理(li)含(han)義(yi),這(zhe)需(xu)要(yao)較(jiao)為(wei)專(zhuan)業(ye)的(de)圖(tu)像(xiang)處(chu)理(li)背(bei)景(jing)知(zhi)識(shi),門(men)檻(kan)要(yao)求(qiu)高(gao)。如(ru)果(guo)你(ni)理(li)解(jie)不(bu)到(dao)位(wei),可(ke)能(neng)定(ding)位(wei)的(de)結(jie)果(guo)不(bu)是(shi)你(ni)想(xiang)要(yao)的(de),或(huo)者(zhe)達(da)不(bu)到(dao)一(yi)個(ge)非(fei)常(chang)精(jing)準(zhun)的(de)效(xiao)果(guo)。要(yao)做(zuo)到(dao)這(zhe)一(yi)點(dian)的(de)話(hua),是(shi)需(xu)要(yao)有(you)圖(tu)像(xiang)處(chu)理(li)算(suan)法(fa)背(bei)景(jing)的(de)。所(suo)以(yi)說(shuo)我(wo)原(yuan)來(lai)做(zuo)傳(chuan)統(tong)圖(tu)像(xiang),就(jiu)是(shi)我(wo)在(zai)原(yuan)來(lai)東(dong)家(jia)的(de)時(shi)候(hou),我(wo)們(men)帶(dai)著(zhe)底(di)下(xia)的(de)應(ying)用(yong)工(gong)程(cheng)師(shi)都(dou)是(shi)碩(shuo)士(shi),這(zhe)個(ge)成(cheng)本(ben)是(shi)非(fei)常(chang)高(gao)的(de)。
而我們用 AI 來做,比如說我們隻是訓練三、五wu個ge樣yang本ben,甚shen至zhi是shi一yi個ge樣yang本ben,後hou麵mian整zheng個ge定ding位wei的de精jing度du跟gen效xiao率lv都dou能neng夠gou達da到dao,甚shen至zhi超chao過guo傳chuan統tong算suan法fa的de精jing度du。當dang然ran,整zheng個ge魯lu棒bang性xing肯ken定ding也ye比bi傳chuan統tong算suan法fa要yao好hao。那na這zhe樣yang使shi用yong的de成cheng本ben就jiu可ke以yi降jiang到dao非fei常chang低di。
➔ 解決方案

這個解決方案的範疇是什麼?可以說是視覺係統範疇,也可以說是視覺檢測設備範疇。叫解決方案,就是基於算法疊加的一個完整方案。我們內部的觀點是,AI不bu僅jin僅jin是shi一yi個ge技ji術shu模mo塊kuai,它ta是shi一yi種zhong新xin的de認ren知zhi框kuang架jia,本ben質zhi上shang是shi基ji於yu數shu據ju和he標biao準zhun驅qu動dong的de。首shou先xian我wo們men要yao有you這zhe麼me一yi個ge認ren知zhi框kuang架jia,再zai往wang下xia看kan我wo們men的de視shi覺jiao解jie決jue方fang案an,核he心xin包bao括kuo哪na些xie部bu分fen?對這些部分意味著是什麼?
我抽取了裏麵三個核心部分:
1. 成像模組
成像模組就是整個機器視覺裏麵成像的所有器件跟方案,它背後的基本原理是什麼?是基於傳統算法,而傳統算法基於定量分析。所以說我們基於傳統算法來做的成像方案,它的底層要求是“定量、高對比度”。
這個會導致什麼樣的後果?比bi如ru說shuo我wo們men要yao檢jian測ce一yi個ge表biao麵mian很hen多duo不bu同tong類lei型xing的de缺que陷xian。為wei了le要yao達da到dao高gao對dui比bi度du的de定ding量liang,可ke能neng我wo需xu要yao打da若ruo幹gan場chang光guang。可ke能neng每mei場chang光guang對dui應ying兩liang種zhong缺que陷xian,後hou麵mian才cai能neng把ba這zhe些xie缺que陷xian完wan整zheng的de呈cheng現xian出chu來lai,成cheng像xiang的de效xiao率lv非fei常chang低di。
而我們進入AI時代以後,我們對成像的要求變了,隻要是目視可見即可。當前基於傳統算法構建的成像方案,本質上還隻是一個“光電轉換器”。隻(zhi)是(shi)把(ba)一(yi)個(ge)關(guan)鍵(jian)信(xin)號(hao)轉(zhuan)換(huan)成(cheng)圖(tu)像(xiang),距(ju)離(li)我(wo)們(men)所(suo)說(shuo)的(de)眼(yan)睛(jing)差(cha)的(de)太(tai)遠(yuan)了(le)。當(dang)然(ran),我(wo)們(men)也(ye)不(bu)可(ke)能(neng)一(yi)步(bu)躍(yue)成(cheng)眼(yan)睛(jing),那(na)至(zhi)少(shao)階(jie)段(duan)性(xing)的(de)目(mu)標(biao)我(wo)們(men)是(shi)不(bu)是(shi)可(ke)以(yi)達(da)到(dao)攝(she)影(ying)水(shui)準(zhun)。這(zhe)個(ge)做(zuo)到(dao)了(le)有(you)什(shen)麼(me)好(hao)處(chu)呢(ne)?一方麵是能夠提高我們整個成像的空間效率,更重要的是它簡化了、通用化了、成本低了。這是很重要的一個根本變化。
2. 算法模組
客觀來說,當前落地的各種項目,成本還是比較高的。根源在於大部分隻是把AI作為一個算法模塊,把它疊加到原來的體係裏麵,就比較低效。後續算法方案一定要以AI為中心,打通和優化整個計算流和數據流,這個才是最優的方式,能夠提高訓練推理效率、降低部署維護成本。
3. 自動化模組
在傳統算法時代,由於成像有很多約束,自動化能發揮的作用非常受限。AI其實是打破了算法的束縛,本質上也打破了我們成像的束縛。可以自動化幫我們拍圖,各種“凹姿勢”“擺造型”。隻zhi要yao能neng將jiang缺que陷xian拍pai清qing楚chu就jiu可ke以yi,並bing不bu需xu要yao那na麼me明ming亮liang的de成cheng像xiang。如ru果guo這zhe麼me來lai做zuo的de話hua,極ji大da地di降jiang低di了le自zi動dong化hua複fu雜za度du,提ti高gao了le自zi動dong化hua通tong用yong性xing。並bing且qie能neng夠gou比bi較jiao簡jian單dan高gao效xiao地di解jie決jue產chan品pin異yi形xing、多型號小批量等成像難題。
從大的維度來看,工業視覺解決方案會按兩個極端方向演進:
工業AI視覺進化論

任何技術導入都有它的一個生命周期,每個階段有不同的特點。基於落地多個項目的思考,我們將AI工業視覺發展路徑劃分為三個階段:早期市場時期(2019)、保齡球道時期(2024)、龍卷風時期(2029)。
這是一個大概的判斷,時間周期有可能會早或晚,僅供大家參考。
➔ 早期市場時期(2019):技術創新

我們首先來看一下早期市場有什麼特點?
核心還屬於是技術創新的一個時期。換句話說,AI這個東西在工業視覺裏麵到底能不能用,比較專業的說法就叫技術創新導向。
那麼工業AI算法跟我們自然場景(比如人臉識別、自動駕駛)的技術到底有什麼差別?一是小樣本,大家知道缺陷是由非受控因素產生的,獲取成本很高,所以需要小樣本;二是高精度,包括尺寸小、對比度低、過檢率和漏檢率指標嚴格,特別是關鍵缺陷要達到零漏殺;三是低算力,本質上是由於工業產品對成本有約束。
正是基於這些洞察,我們構建了自主底層算法框架、上層算法工具,即大家耳熟能詳的工業 AI 視覺軟件平台AIDI。
在推AIDI的過程中,有兩個比較有意思的點,在這裏與大家分享下:
1、設備廠商甚至集成商大部分都有自研基礎AI算法的衝動,基本都無疾而終。甚至這個公司可能隻有五六個人,他也安排一個人來自研。核心原因就兩個:一是有很多開源的框架;二是確實把這些數據拉到框架裏充分跑一跑能看到不錯的指標。但是真正上線時會受三個約束,即小樣本、高精度、低算力。所以很多人可能做到後麵無法突破這三個約束,慢慢地就悄無聲息了。
通過和客戶的交流和我個人的思考,我認為其實它是一個經濟學問題,不是一個技術問題。我們在傳統算法時代,用OpenCV去做項目也能做一部分,但是大部分的係統和設備,還是一定要用專業的平台軟件來做。在AI這個時代我認為也是一樣的。能不能自研AI算法呢?我認為是比自研傳統算法更難的。主要是三個方麵:第一個方麵,自然場景跟工業場景的問題特性有非常大的差別;第二個方麵是AI算法的參數維度更多;第三個,要達到低算力,需要對算法做高性能優化,優化複雜度是非常高的。如果一個公司真的要自研AI算法,投入的強度要很高,要有很多工程師,所以我覺得最終它實際上是一個經濟學問題。
總zong的de來lai說shuo,如ru果guo大da家jia投tou入ru資zi源yuan的de強qiang度du足zu夠gou,我wo認ren為wei也ye能neng夠gou做zuo一yi個ge至zhi少shao能neng用yong的de東dong西xi,但dan如ru果guo要yao做zuo到dao更geng好hao,就jiu看kan你ni有you沒mei有you天tian花hua板ban足zu夠gou高gao的de研yan發fa人ren員yuan。
2、有些人問我,做傳統算法的視覺廠商來做AI算法是更容易還是更難?針(zhen)對(dui)這(zhe)個(ge)問(wen)題(ti)我(wo)還(hai)真(zhen)是(shi)進(jin)行(xing)了(le)深(shen)度(du)的(de)思(si)考(kao),這(zhe)也(ye)是(shi)我(wo)想(xiang)給(gei)大(da)家(jia)分(fen)享(xiang)的(de)第(di)二(er)個(ge)點(dian)。其(qi)實(shi)我(wo)認(ren)為(wei)是(shi)更(geng)難(nan),可(ke)能(neng)比(bi)一(yi)個(ge)完(wan)全(quan)初(chu)創(chuang)的(de)公(gong)司(si)還(hai)更(geng)難(nan)。為(wei)什(shen)麼(me)?本質上AI算法和傳統算法的架構和迭代方式完全不同,研發理念也是天壤之別。要從傳統算法的方式切換到AI,我不是說沒有可能,隻是概率較小。
阿丘落地的第一個項目是3C模組外觀檢測,這個項目是有一定複雜度的。其中涉及注塑件、金屬件等多種材料組合,產品異形,缺陷種類多達70餘種、形態多變。 檢測要求漏檢率低於0.1%,過檢率3%左右,以傳統算法視角看來該項目基本無解。我們從方案到樣機上線花了超過6個月的時間,在項目進行過程中,我們發現 POC指標和上線指標之間存在巨大鴻溝。為什麼會有這個鴻溝?我認為主要有四個方麵:
第一個就是對AI的認知。它到底能解決什麼問題?不能解決什麼問題?所謂AI是不論複雜度的,隻要學習過的,再複雜也可以解決,沒學習過的再簡單也無法解決。
第二個是對需求邊界的認知,AI本身無法分辨正確與錯誤,這意味著你給它錯誤的樣本,它也會學習。從這個角度,他對標準是有很嚴格的要求的。
第(di)三(san)個(ge)是(shi)對(dui)數(shu)據(ju)的(de)管(guan)理(li)。核(he)心(xin)主(zhu)要(yao)是(shi)兩(liang)個(ge)點(dian),如(ru)何(he)把(ba)握(wo)標(biao)注(zhu)的(de)標(biao)準(zhun)以(yi)及(ji)如(ru)何(he)篩(shai)選(xuan)對(dui)迭(die)代(dai)模(mo)型(xing)有(you)信(xin)息(xi)量(liang)的(de)數(shu)據(ju)。標(biao)注(zhu)標(biao)準(zhun)太(tai)嚴(yan)苛(ke),成(cheng)本(ben)太(tai)高(gao);不夠嚴苛,標準對AI來說又不明確。
最後一個是模型相關的問題。如何保證指標的穩定性和在產線間進行複製。比如,不同的產品型號該如何做到兼容。
為了解決這些問題,我們基於項目經驗,提煉出了AI落地方法論,比較成熟的方法,就會成為AIDI產品功能的一個組成部分。
該階段客戶的特征:擁抱新技術、有痛點、有一定支付能力。我認為這三個特征缺一不可。這樣來看,早期我們項目落地在3C行業是有其必然性的,因為以Apple為主驅動的3C供應鏈是最早擁抱新技術的行業之一。並且在3Cgongyinglianzhong,zidonghuachengduzuididejiuzaizhijianhuanjie。qianjinianyiqingyinqiderenyuanshouxiandengwentigengjiatuidonglejiancezidonghua。youyujiancewentidefuzaxing,chuantongsuanfashidaishixianjiancezidonghuakenengxingfeichangxiao。dangranyezuoleyixieAOI,但實現的效果不太好,沒有一個真正的解決方案。可能你上了一台設備,但還需要更多的人來維護這台設備。AI提供了全新的強力的技術手段,和更多的可能性!
➔ 保齡球道時期(2024):產品創新

早期市場階段,我認為是找一些場景落地,後麵到了保齡球道時期,一定是在細分市場。
這zhe裏li麵mian的de一yi個ge焦jiao點dian就jiu是shi產chan品pin創chuang新xin。從cong算suan法fa維wei度du來lai看kan就jiu是shi算suan法fa的de標biao準zhun化hua,包bao括kuo工gong具ju鏈lian標biao準zhun化hua。把ba前qian麵mian說shuo的de那na套tao落luo地di方fang法fa論lun抽chou象xiang成cheng一yi套tao工gong具ju,集ji成cheng到dao產chan品pin中zhong,讓rang大da家jia更geng方fang便bian地di使shi用yong。從cong解jie決jue方fang案an維wei度du,核he心xin點dian在zai於yu創chuang新xin簡jian化hua。發fa掘jueAI特性,在提高檢測性能的同時,簡化成像、算法、自動化解決方案,縮短產品上市周期,降低產品生命周期綜合成本。
該階段客戶的特征:有痛點且關注性價比。我們認為這個階段還需要延續兩到三年的時間。
➔ 龍卷風時期(2029):行業價值鏈重構
下一個時期就是龍卷風時期,重點在於重構行業價值鏈。
該(gai)時(shi)期(qi)的(de)前(qian)置(zhi)條(tiao)件(jian)是(shi)殺(sha)手(shou)級(ji)產(chan)品(pin)的(de)出(chu)現(xian),該(gai)殺(sha)手(shou)級(ji)產(chan)品(pin)把(ba)行(xing)業(ye)價(jia)值(zhi)鏈(lian)卷(juan)一(yi)遍(bian),在(zai)暴(bao)風(feng)過(guo)後(hou),將(jiang)會(hui)呈(cheng)現(xian)新(xin)的(de)價(jia)值(zhi)鏈(lian)格(ge)局(ju)。比(bi)如(ru),移(yi)動(dong)互(hu)聯(lian)網(wang)時(shi)代(dai)的(de)殺(sha)手(shou)級(ji)產(chan)品(pin)就(jiu)是(shi)iPhone。視覺行業的殺手級產品是康耐視的VisionPro,有了這個產品才定義了我們現在提到的很多術語。那AI時代的殺手級產品是什麼?這個還是需要由市場來選擇。
龍卷風時期的重要特征:大量“偽AI公司出現”。特別是傳統視覺公司沒有涉及AI也紛紛披上AI的外衣,因為大家都感知到暴風即將來臨,想跟上風潮的同時又恐懼被暴風卷走。
演進趨勢觀點

最後我來分享下我們對未來3-5年AI演進趨勢的一些觀點。
第一個是算法方麵:第一個是非監督,這個主要針對輕量級場景;第二個是大模型,前麵提到對於複雜場景,大模型是最佳機會;最後一個是輕量化,即低算力,低成本是工業視覺永恒的關鍵維度。
第二個趨勢屬於解決方案。第一個核心還是簡化和通用化,前麵提到的成像、算法自動化都是屬於簡化、通用化。還有一個是全鏈路的成本優化。這是什麼意思?一個行業要達到最大化普及,成本是很關鍵的一個因素。整個鏈條包括硬件、算力、開發成本、部署成本、維護成本,如何實現整體最低。
disangeworenweishizhenggexingyedadequshi。weilaiwunianzuoyou,yidinghuichuxianshashoujichanpin。zhegechanpindechuxiankaonengli,yeyaokaodianyunqi,zuizhongtashiyoushichangshaixuanchulai。zhenggexingyejianghuiyinweizhegeshashoujichanpinzhongxinxipai。zhegeshashoujichanpindechuxianjiangyingxiangshenme?我分享一下我個人的觀點:第一個就是不了解AI的(de)工(gong)程(cheng)師(shi)可(ke)能(neng)將(jiang)被(bei)淘(tao)汰(tai)。還(hai)有(you)一(yi)個(ge)就(jiu)是(shi)傳(chuan)統(tong)的(de)視(shi)覺(jiao)公(gong)司(si)從(cong)業(ye)者(zhe)能(neng)不(bu)能(neng)在(zai)大(da)的(de)圖(tu)景(jing)裏(li)麵(mian)創(chuang)造(zao)價(jia)值(zhi),否(fou)則(ze)也(ye)會(hui)被(bei)淘(tao)汰(tai)。這(zhe)個(ge)我(wo)們(men)可(ke)以(yi)用(yong)時(shi)間(jian)來(lai)檢(jian)驗(yan)。

以上所有內容整理自阿丘科技研發VP 鍾克洪博士於2023 VisionChina 北京大會演講