工業 AI 視覺進化論 - 工控新聞自動化新聞中華工控網

返回工控網首頁

中國自動化學會專家谘詢工作委員會指定宣傳媒體

免費注冊

中華工控網

廣告服務 | 客服中心

新聞詳情

工業 AI 視覺進化論

http://kadhoai.com.cn 2026-04-25 17:22:22 來源：阿丘科技

前言

我自己是做算法出身，喜歡思考問題的本質。比如，AI對(dui)於(yu)我(wo)們(men)整(zheng)個(ge)工(gong)業(ye)視(shi)覺(jiao)的(de)本(ben)質(zhi)到(dao)底(di)是(shi)什(shen)麼(me)。今(jin)天(tian)我(wo)把(ba)這(zhe)個(ge)不(bu)僅(jin)是(shi)我(wo)的(de)思(si)考(kao)，也(ye)是(shi)阿(e)丘(qiu)科(ke)技(ji)整(zheng)個(ge)公(gong)司(si)的(de)思(si)考(kao)分(fen)享(xiang)給(gei)大(da)家(jia)，供(gong)大(da)家(jia)參(can)考(kao)。但(dan)這(zhe)也(ye)是(shi)一(yi)個(ge)比(bi)較(jiao)初(chu)級(ji)的(de)思(si)考(kao)，要(yao)在(zai)以(yi)後(hou)的(de)實(shi)踐(jian)中(zhong)深(shen)化(hua)。

今天我講的內容包含三個主題，第一個是講AI對於工業視覺到底意味著什麼;第二個是我們從整個技術發展周期的角度，看一看工業AI視覺發展的一個大的路線圖;第三個，也是必不可少的，要談一談我們對未來的一個趨勢和觀點的一些理解。

AI重構工業視覺

➔ 算法

首先我們來看第一個主題，AI對於工業視覺算法到底有什麼價值?

傳統算法，我用兩個關鍵詞來定義它，就是定量分析和特征工程。特征工程就是算不同的特征。後麵做判斷的時候，一堆的if···else···是傳統算法的一個特點。那AI這塊的話大家已經很了解了，基於樣本來做學習。我認為這是很本質的一個東西。

從功能角度出發，工業視覺算法可分為圖像處理、定位、檢測、測量、識別;從算法實現技術角度就是分類、識別、測量三大類。本質上，工業視覺算法將會或正在被AI全部重構，當然如果涉及到測量技術，即定量分析技術，傳統算法依然不可或缺。

AI重構工業視覺算法的價值體現在以下 3 個方麵：

1. 升維

AI通過升維來解決我們的一些複雜的分類和識別問題。包括複雜的背景、低對比度、柔性電子、一些強幹擾。這些東西原來傳統方法是沒問題的，但是用AI的話，我覺得能更加好。這個點大家是能夠肉眼可見的。後麵第二點和第三點可能未必肉眼可見，但實際上是更關鍵的。

2. 簡化、通用化

AI的(de)一(yi)大(da)優(you)勢(shi)是(shi)可(ke)以(yi)對(dui)算(suan)法(fa)問(wen)題(ti)做(zuo)極(ji)度(du)的(de)抽(chou)象(xiang)，抽(chou)象(xiang)之(zhi)後(hou)較(jiao)為(wei)複(fu)雜(za)的(de)工(gong)業(ye)視(shi)覺(jiao)問(wen)題(ti)就(jiu)會(hui)變(bian)得(de)比(bi)較(jiao)簡(jian)單(dan)，還(hai)有(you)一(yi)個(ge)就(jiu)是(shi)通(tong)用(yong)化(hua)。很(hen)多(duo)工(gong)業(ye)視(shi)覺(jiao)裏(li)麵(mian)比(bi)較(jiao)複(fu)雜(za)的(de)算(suan)法(fa)問(wen)題(ti)，用(yong)兩(liang)到(dao)三(san)個(ge)比(bi)較(jiao)通(tong)用(yong)的(de)算(suan)法(fa)模(mo)塊(kuai)去(qu)訓(xun)練(lian)數(shu)據(ju)，結(jie)果(guo)就(jiu)出(chu)來(lai)了(le)，並(bing)且(qie)這(zhe)個(ge)指(zhi)標(biao)還(hai)非(fei)常(chang)優(you)秀(xiu)。

3. 降本

大家聽到這個東西好像有點反直覺，覺得AI對算力有要求，怎麼還能降本?

womenjuyigesuoyouzuochuantongsuanfaderendounenggoulijiedeyigelizi。birujihexingzhuangpipei，zhegeshuyushizhenggejiqishijiaolimian，chuantongsuanfaraobuguodezheyangdeyigesuanfa，taxuyaoshezhifeichangduodecanshu。ruguoyaoyonghao，gongchengshixuyaolijiejihepipeisuanfadejibenyuanli、參(can)數(shu)的(de)物(wu)理(li)含(han)義(yi)，這(zhe)需(xu)要(yao)較(jiao)為(wei)專(zhuan)業(ye)的(de)圖(tu)像(xiang)處(chu)理(li)背(bei)景(jing)知(zhi)識(shi)，門(men)檻(kan)要(yao)求(qiu)高(gao)。如(ru)果(guo)你(ni)理(li)解(jie)不(bu)到(dao)位(wei)，可(ke)能(neng)定(ding)位(wei)的(de)結(jie)果(guo)不(bu)是(shi)你(ni)想(xiang)要(yao)的(de)，或(huo)者(zhe)達(da)不(bu)到(dao)一(yi)個(ge)非(fei)常(chang)精(jing)準(zhun)的(de)效(xiao)果(guo)。要(yao)做(zuo)到(dao)這(zhe)一(yi)點(dian)的(de)話(hua)，是(shi)需(xu)要(yao)有(you)圖(tu)像(xiang)處(chu)理(li)算(suan)法(fa)背(bei)景(jing)的(de)。所(suo)以(yi)說(shuo)我(wo)原(yuan)來(lai)做(zuo)傳(chuan)統(tong)圖(tu)像(xiang)，就(jiu)是(shi)我(wo)在(zai)原(yuan)來(lai)東(dong)家(jia)的(de)時(shi)候(hou)，我(wo)們(men)帶(dai)著(zhe)底(di)下(xia)的(de)應(ying)用(yong)工(gong)程(cheng)師(shi)都(dou)是(shi)碩(shuo)士(shi)，這(zhe)個(ge)成(cheng)本(ben)是(shi)非(fei)常(chang)高(gao)的(de)。

而我們用 AI 來做，比如說我們隻是訓練三、五wu個ge樣yang本ben，甚shen至zhi是shi一yi個ge樣yang本ben，後hou麵mian整zheng個ge定ding位wei的de精jing度du跟gen效xiao率lv都dou能neng夠gou達da到dao，甚shen至zhi超chao過guo傳chuan統tong算suan法fa的de精jing度du。當dang然ran，整zheng個ge魯lu棒bang性xing肯ken定ding也ye比bi傳chuan統tong算suan法fa要yao好hao。那na這zhe樣yang使shi用yong的de成cheng本ben就jiu可ke以yi降jiang到dao非fei常chang低di。

➔ 解決方案

這個解決方案的範疇是什麼?可以說是視覺係統範疇，也可以說是視覺檢測設備範疇。叫解決方案，就是基於算法疊加的一個完整方案。我們內部的觀點是，AI不bu僅jin僅jin是shi一yi個ge技ji術shu模mo塊kuai，它ta是shi一yi種zhong新xin的de認ren知zhi框kuang架jia，本ben質zhi上shang是shi基ji於yu數shu據ju和he標biao準zhun驅qu動dong的de。首shou先xian我wo們men要yao有you這zhe麼me一yi個ge認ren知zhi框kuang架jia，再zai往wang下xia看kan我wo們men的de視shi覺jiao解jie決jue方fang案an，核he心xin包bao括kuo哪na些xie部bu分fen?對這些部分意味著是什麼?

我抽取了裏麵三個核心部分：

1. 成像模組

成像模組就是整個機器視覺裏麵成像的所有器件跟方案，它背後的基本原理是什麼?是基於傳統算法，而傳統算法基於定量分析。所以說我們基於傳統算法來做的成像方案，它的底層要求是“定量、高對比度”。

這個會導致什麼樣的後果?比bi如ru說shuo我wo們men要yao檢jian測ce一yi個ge表biao麵mian很hen多duo不bu同tong類lei型xing的de缺que陷xian。為wei了le要yao達da到dao高gao對dui比bi度du的de定ding量liang，可ke能neng我wo需xu要yao打da若ruo幹gan場chang光guang。可ke能neng每mei場chang光guang對dui應ying兩liang種zhong缺que陷xian，後hou麵mian才cai能neng把ba這zhe些xie缺que陷xian完wan整zheng的de呈cheng現xian出chu來lai，成cheng像xiang的de效xiao率lv非fei常chang低di。

而我們進入AI時代以後，我們對成像的要求變了，隻要是目視可見即可。當前基於傳統算法構建的成像方案，本質上還隻是一個“光電轉換器”。隻(zhi)是(shi)把(ba)一(yi)個(ge)關(guan)鍵(jian)信(xin)號(hao)轉(zhuan)換(huan)成(cheng)圖(tu)像(xiang)，距(ju)離(li)我(wo)們(men)所(suo)說(shuo)的(de)眼(yan)睛(jing)差(cha)的(de)太(tai)遠(yuan)了(le)。當(dang)然(ran)，我(wo)們(men)也(ye)不(bu)可(ke)能(neng)一(yi)步(bu)躍(yue)成(cheng)眼(yan)睛(jing)，那(na)至(zhi)少(shao)階(jie)段(duan)性(xing)的(de)目(mu)標(biao)我(wo)們(men)是(shi)不(bu)是(shi)可(ke)以(yi)達(da)到(dao)攝(she)影(ying)水(shui)準(zhun)。這(zhe)個(ge)做(zuo)到(dao)了(le)有(you)什(shen)麼(me)好(hao)處(chu)呢(ne)?一方麵是能夠提高我們整個成像的空間效率，更重要的是它簡化了、通用化了、成本低了。這是很重要的一個根本變化。

2. 算法模組

客觀來說，當前落地的各種項目，成本還是比較高的。根源在於大部分隻是把AI作為一個算法模塊，把它疊加到原來的體係裏麵，就比較低效。後續算法方案一定要以AI為中心，打通和優化整個計算流和數據流，這個才是最優的方式，能夠提高訓練推理效率、降低部署維護成本。

3. 自動化模組

在傳統算法時代，由於成像有很多約束，自動化能發揮的作用非常受限。AI其實是打破了算法的束縛，本質上也打破了我們成像的束縛。可以自動化幫我們拍圖，各種“凹姿勢”“擺造型”。隻zhi要yao能neng將jiang缺que陷xian拍pai清qing楚chu就jiu可ke以yi，並bing不bu需xu要yao那na麼me明ming亮liang的de成cheng像xiang。如ru果guo這zhe麼me來lai做zuo的de話hua，極ji大da地di降jiang低di了le自zi動dong化hua複fu雜za度du，提ti高gao了le自zi動dong化hua通tong用yong性xing。並bing且qie能neng夠gou比bi較jiao簡jian單dan高gao效xiao地di解jie決jue產chan品pin異yi形xing、多型號小批量等成像難題。

從大的維度來看，工業視覺解決方案會按兩個極端方向演進：

輕量級場景：更強調一體化，極致的簡單易用，可能需要線上訓練。
複雜場景：更強調通用化解決方案，包括：通用成像模組、通用大模型、通用自動化模組，降低全鏈路綜合成本。

工業AI視覺進化論

任何技術導入都有它的一個生命周期，每個階段有不同的特點。基於落地多個項目的思考，我們將AI工業視覺發展路徑劃分為三個階段：早期市場時期(2019)、保齡球道時期(2024)、龍卷風時期(2029)。

2019年是AI工業視覺元年，意味著有相關的AI項目落地，即早期市場。阿丘也是在這一年開始逐步項目落地，我們的第一個落地項目是3C行業的模組外觀檢測。
自 2021年開始，AI逐步在各細分市場成為標配，該趨勢將延續到2024年，即所謂的保齡球道時期。阿丘從2021年開始在結構件、模組、包裝等眾多細分市場批量落地。
預計在 2029年， AI 將在全域市場普及，即龍卷風時期。

這是一個大概的判斷，時間周期有可能會早或晚，僅供大家參考。

➔ 早期市場時期(2019)：技術創新

我們首先來看一下早期市場有什麼特點?

核心還屬於是技術創新的一個時期。換句話說，AI這個東西在工業視覺裏麵到底能不能用，比較專業的說法就叫技術創新導向。

那麼工業AI算法跟我們自然場景(比如人臉識別、自動駕駛)的技術到底有什麼差別?一是小樣本，大家知道缺陷是由非受控因素產生的，獲取成本很高，所以需要小樣本;二是高精度，包括尺寸小、對比度低、過檢率和漏檢率指標嚴格，特別是關鍵缺陷要達到零漏殺;三是低算力，本質上是由於工業產品對成本有約束。

正是基於這些洞察，我們構建了自主底層算法框架、上層算法工具，即大家耳熟能詳的工業 AI 視覺軟件平台AIDI。

在推AIDI的過程中，有兩個比較有意思的點，在這裏與大家分享下：

1、設備廠商甚至集成商大部分都有自研基礎AI算法的衝動，基本都無疾而終。甚至這個公司可能隻有五六個人，他也安排一個人來自研。核心原因就兩個：一是有很多開源的框架;二是確實把這些數據拉到框架裏充分跑一跑能看到不錯的指標。但是真正上線時會受三個約束，即小樣本、高精度、低算力。所以很多人可能做到後麵無法突破這三個約束，慢慢地就悄無聲息了。

通過和客戶的交流和我個人的思考，我認為其實它是一個經濟學問題，不是一個技術問題。我們在傳統算法時代，用OpenCV去做項目也能做一部分，但是大部分的係統和設備，還是一定要用專業的平台軟件來做。在AI這個時代我認為也是一樣的。能不能自研AI算法呢?我認為是比自研傳統算法更難的。主要是三個方麵：第一個方麵，自然場景跟工業場景的問題特性有非常大的差別;第二個方麵是AI算法的參數維度更多;第三個，要達到低算力，需要對算法做高性能優化，優化複雜度是非常高的。如果一個公司真的要自研AI算法，投入的強度要很高，要有很多工程師，所以我覺得最終它實際上是一個經濟學問題。

總zong的de來lai說shuo，如ru果guo大da家jia投tou入ru資zi源yuan的de強qiang度du足zu夠gou，我wo認ren為wei也ye能neng夠gou做zuo一yi個ge至zhi少shao能neng用yong的de東dong西xi，但dan如ru果guo要yao做zuo到dao更geng好hao，就jiu看kan你ni有you沒mei有you天tian花hua板ban足zu夠gou高gao的de研yan發fa人ren員yuan。

2、有些人問我，做傳統算法的視覺廠商來做AI算法是更容易還是更難?針(zhen)對(dui)這(zhe)個(ge)問(wen)題(ti)我(wo)還(hai)真(zhen)是(shi)進(jin)行(xing)了(le)深(shen)度(du)的(de)思(si)考(kao)，這(zhe)也(ye)是(shi)我(wo)想(xiang)給(gei)大(da)家(jia)分(fen)享(xiang)的(de)第(di)二(er)個(ge)點(dian)。其(qi)實(shi)我(wo)認(ren)為(wei)是(shi)更(geng)難(nan)，可(ke)能(neng)比(bi)一(yi)個(ge)完(wan)全(quan)初(chu)創(chuang)的(de)公(gong)司(si)還(hai)更(geng)難(nan)。為(wei)什(shen)麼(me)?本質上AI算法和傳統算法的架構和迭代方式完全不同，研發理念也是天壤之別。要從傳統算法的方式切換到AI，我不是說沒有可能，隻是概率較小。

阿丘落地的第一個項目是3C模組外觀檢測，這個項目是有一定複雜度的。其中涉及注塑件、金屬件等多種材料組合，產品異形，缺陷種類多達70餘種、形態多變。檢測要求漏檢率低於0.1%，過檢率3%左右，以傳統算法視角看來該項目基本無解。我們從方案到樣機上線花了超過6個月的時間，在項目進行過程中，我們發現 POC指標和上線指標之間存在巨大鴻溝。為什麼會有這個鴻溝?我認為主要有四個方麵：

第一個就是對AI的認知。它到底能解決什麼問題?不能解決什麼問題?所謂AI是不論複雜度的，隻要學習過的，再複雜也可以解決，沒學習過的再簡單也無法解決。

第二個是對需求邊界的認知，AI本身無法分辨正確與錯誤，這意味著你給它錯誤的樣本，它也會學習。從這個角度，他對標準是有很嚴格的要求的。

第(di)三(san)個(ge)是(shi)對(dui)數(shu)據(ju)的(de)管(guan)理(li)。核(he)心(xin)主(zhu)要(yao)是(shi)兩(liang)個(ge)點(dian)，如(ru)何(he)把(ba)握(wo)標(biao)注(zhu)的(de)標(biao)準(zhun)以(yi)及(ji)如(ru)何(he)篩(shai)選(xuan)對(dui)迭(die)代(dai)模(mo)型(xing)有(you)信(xin)息(xi)量(liang)的(de)數(shu)據(ju)。標(biao)注(zhu)標(biao)準(zhun)太(tai)嚴(yan)苛(ke)，成(cheng)本(ben)太(tai)高(gao);不夠嚴苛，標準對AI來說又不明確。

最後一個是模型相關的問題。如何保證指標的穩定性和在產線間進行複製。比如，不同的產品型號該如何做到兼容。

為了解決這些問題，我們基於項目經驗，提煉出了AI落地方法論，比較成熟的方法，就會成為AIDI產品功能的一個組成部分。

該階段客戶的特征：擁抱新技術、有痛點、有一定支付能力。我認為這三個特征缺一不可。這樣來看，早期我們項目落地在3C行業是有其必然性的，因為以Apple為主驅動的3C供應鏈是最早擁抱新技術的行業之一。並且在3Cgongyinglianzhong，zidonghuachengduzuididejiuzaizhijianhuanjie。qianjinianyiqingyinqiderenyuanshouxiandengwentigengjiatuidonglejiancezidonghua。youyujiancewentidefuzaxing，chuantongsuanfashidaishixianjiancezidonghuakenengxingfeichangxiao。dangranyezuoleyixieAOI，但實現的效果不太好，沒有一個真正的解決方案。可能你上了一台設備，但還需要更多的人來維護這台設備。AI提供了全新的強力的技術手段，和更多的可能性!

➔ 保齡球道時期(2024)：產品創新

早期市場階段，我認為是找一些場景落地，後麵到了保齡球道時期，一定是在細分市場。

這zhe裏li麵mian的de一yi個ge焦jiao點dian就jiu是shi產chan品pin創chuang新xin。從cong算suan法fa維wei度du來lai看kan就jiu是shi算suan法fa的de標biao準zhun化hua，包bao括kuo工gong具ju鏈lian標biao準zhun化hua。把ba前qian麵mian說shuo的de那na套tao落luo地di方fang法fa論lun抽chou象xiang成cheng一yi套tao工gong具ju，集ji成cheng到dao產chan品pin中zhong，讓rang大da家jia更geng方fang便bian地di使shi用yong。從cong解jie決jue方fang案an維wei度du，核he心xin點dian在zai於yu創chuang新xin簡jian化hua。發fa掘jueAI特性，在提高檢測性能的同時，簡化成像、算法、自動化解決方案，縮短產品上市周期，降低產品生命周期綜合成本。

該階段客戶的特征：有痛點且關注性價比。我們認為這個階段還需要延續兩到三年的時間。

➔ 龍卷風時期(2029)：行業價值鏈重構

下一個時期就是龍卷風時期，重點在於重構行業價值鏈。

該(gai)時(shi)期(qi)的(de)前(qian)置(zhi)條(tiao)件(jian)是(shi)殺(sha)手(shou)級(ji)產(chan)品(pin)的(de)出(chu)現(xian)，該(gai)殺(sha)手(shou)級(ji)產(chan)品(pin)把(ba)行(xing)業(ye)價(jia)值(zhi)鏈(lian)卷(juan)一(yi)遍(bian)，在(zai)暴(bao)風(feng)過(guo)後(hou)，將(jiang)會(hui)呈(cheng)現(xian)新(xin)的(de)價(jia)值(zhi)鏈(lian)格(ge)局(ju)。比(bi)如(ru)，移(yi)動(dong)互(hu)聯(lian)網(wang)時(shi)代(dai)的(de)殺(sha)手(shou)級(ji)產(chan)品(pin)就(jiu)是(shi)iPhone。視覺行業的殺手級產品是康耐視的VisionPro，有了這個產品才定義了我們現在提到的很多術語。那AI時代的殺手級產品是什麼?這個還是需要由市場來選擇。

龍卷風時期的重要特征：大量“偽AI公司出現”。特別是傳統視覺公司沒有涉及AI也紛紛披上AI的外衣，因為大家都感知到暴風即將來臨，想跟上風潮的同時又恐懼被暴風卷走。

演進趨勢觀點

最後我來分享下我們對未來3-5年AI演進趨勢的一些觀點。

第一個是算法方麵：第一個是非監督，這個主要針對輕量級場景;第二個是大模型，前麵提到對於複雜場景，大模型是最佳機會;最後一個是輕量化，即低算力，低成本是工業視覺永恒的關鍵維度。

第二個趨勢屬於解決方案。第一個核心還是簡化和通用化，前麵提到的成像、算法自動化都是屬於簡化、通用化。還有一個是全鏈路的成本優化。這是什麼意思?一個行業要達到最大化普及，成本是很關鍵的一個因素。整個鏈條包括硬件、算力、開發成本、部署成本、維護成本，如何實現整體最低。

disangeworenweishizhenggexingyedadequshi。weilaiwunianzuoyou，yidinghuichuxianshashoujichanpin。zhegechanpindechuxiankaonengli，yeyaokaodianyunqi，zuizhongtashiyoushichangshaixuanchulai。zhenggexingyejianghuiyinweizhegeshashoujichanpinzhongxinxipai。zhegeshashoujichanpindechuxianjiangyingxiangshenme?我分享一下我個人的觀點：第一個就是不了解AI的(de)工(gong)程(cheng)師(shi)可(ke)能(neng)將(jiang)被(bei)淘(tao)汰(tai)。還(hai)有(you)一(yi)個(ge)就(jiu)是(shi)傳(chuan)統(tong)的(de)視(shi)覺(jiao)公(gong)司(si)從(cong)業(ye)者(zhe)能(neng)不(bu)能(neng)在(zai)大(da)的(de)圖(tu)景(jing)裏(li)麵(mian)創(chuang)造(zao)價(jia)值(zhi)，否(fou)則(ze)也(ye)會(hui)被(bei)淘(tao)汰(tai)。這(zhe)個(ge)我(wo)們(men)可(ke)以(yi)用(yong)時(shi)間(jian)來(lai)檢(jian)驗(yan)。

以上所有內容整理自阿丘科技研發VP 鍾克洪博士於2023 VisionChina 北京大會演講

相關新聞

編輯精選

工控原創

版權所有工控網 Copyright©2026 Gkong.com, All Rights Reserved