http://kadhoai.com.cn 2026-04-25 05:11:10 來源:優必選
近日,優必選自主研發的人形機器人Walker最強大腦——百億參數基座的多模態大模型:優必選Thinker,在機器人感知與規劃領域三大國際權威基準測試——分別由微軟、穀歌等發起與提出的MS COCO Detection Challenge、RoboVQA與Egoplan-bench2中,針對二十一個場景、四大類型的任務規劃等命題,優必選一舉斬獲四項全球榜單第一。榜單吸引了來自英偉達、北京智源研究院、上海AI Lab等全球頂尖團隊,角逐激烈。優必選這次取得的成績不僅體現了其機器人在複雜環境感知、語義理解與長程任務規劃方麵的全方位技術領先性,也標誌著人形機器人Walker S係列的“最強大腦”實現關鍵進化。
多模態感知+強推理規劃賦能工業場景規模化應用
zaizhinenghualangchaoxijuanquanqiudedangxia,renxingjiqirendeguihuanengliyichengweiguanjianjingzhengweiduzhiyi。chuantongjiqirenxitongyilaiyushezhilingzhixingrenwu,nanyiyingduigaodudongtai、多變的現實場景。而本次三大基準測試的核心,正是針對人形機器人在複雜環境中的多模態感知和推理規劃能力進行係統化驗證。
MS COCO detection challenge由(you)微(wei)軟(ruan)發(fa)起(qi),是(shi)計(ji)算(suan)機(ji)視(shi)覺(jiao)領(ling)域(yu)的(de)權(quan)威(wei)評(ping)測(ce)基(ji)準(zhun)之(zhi)一(yi),在(zai)全(quan)球(qiu)學(xue)術(shu)界(jie)與(yu)工(gong)業(ye)界(jie)享(xiang)有(you)極(ji)高(gao)認(ren)可(ke)度(du),常(chang)年(nian)被(bei)眾(zhong)多(duo)頂(ding)尖(jian)論(lun)文(wen)與(yu)技(ji)術(shu)報(bao)告(gao)用(yong)作(zuo)感(gan)知(zhi)算(suan)法(fa)性(xing)能(neng)的(de)衡(heng)量(liang)標(biao)準(zhun)。
RoboVQA和Egoplan-bench2則分別由穀歌DeepMind和香港大學提出,致力於構建機器人第一視角推理與任務規劃的公開標準基準測試,重點關注多模態、長周期任務規劃能力。參與排名的模型包括北京智源、英偉達ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。

優必選Thinker在MS COCO detection challenge - Segmentation Mask中排名第一

優必選Thinker在MS COCO detection challenge - Bounding Box排名中並列第一

優必選Thinker在RoboVQA與Egoplan-bench2中排名第一
這一成績的背後,是優必選自主研發的Thinker架(jia)構(gou)與(yu)訓(xun)練(lian)框(kuang)架(jia)所(suo)提(ti)供(gong)的(de)技(ji)術(shu)支(zhi)撐(cheng),通(tong)過(guo)多(duo)項(xiang)關(guan)鍵(jian)技(ji)術(shu)創(chuang)新(xin)性(xing)整(zheng)合(he),係(xi)統(tong)化(hua)提(ti)升(sheng)了(le)人(ren)形(xing)機(ji)器(qi)人(ren)的(de)感(gan)知(zhi)與(yu)推(tui)理(li)規(gui)劃(hua)能(neng)力(li),為(wei)工(gong)業(ye)場(chang)景(jing)的(de)規(gui)模(mo)化(hua)應(ying)用(yong)奠(dian)定(ding)基(ji)礎(chu)。

Prompt:"Move the material box to the conveyor belt."Thinker:"First locate the conveyor belt, then place the material box."Walker S2在工業場景中自主完成上料
第一,自研視覺編碼器基座,構建精準環境感知。優必選以ViT作為視覺編碼器原型,結合Co-DETR檢測頭,依托Object 365等開源數據在通用視覺任務上進行預訓練,並通過多階段模態對齊機製實現了視覺-語言模態的高效融合。最終,在優必選機器人數據集上進行微調,顯著提升機器人在工業場景中對物體、障礙和操作上下文的識別能力,為複雜環境下穩定可靠的多模態環境感知奠定了堅實基礎。
第二,超大規模參數架構,提供強大語義理解基礎。優必選自研了具有百億參數的多模態大模型Thinker基座,實現視覺-語言-時間的跨域統一表征,使機器人能夠在多場景中準確捕捉環境細節、理解任務指令並做出推理,為自動化操作提供可靠的認知基礎。
第三,時序增強算法與強化學習方法,增強長程任務規劃連貫可靠。通過大模型蒸餾技術,將百億參數模型效果濃縮至7Bcanshumoxingzhong,zaibaochigaoxingnengdetongshizengqiangduobuzhourenwufenjieyulianxujuecenengli。gaiyouhuashimoxingkeyizaiduancebushu,yongjiqirenzishendazaidesuanlijiukeshishizizhuchaijiefuzaliucheng,bimianguihuazhongduanhuoluojihunluan,zailiuchengyange、環環相扣的工業場景中展現出關鍵價值,將有力保障生產連貫性和操作安全性。
通用基礎能力打造+工業場景精調共創工業人形機器人應用生態
工業場景的精調策略正成為推動多模態大模型邁向實際應用的關鍵力量,為人形機器人在生產線上的穩定、高效部署奠定了技術基礎,加速其從技術驗證走向規模化實戰應用的進程。
優必選創新性地采用“通用基礎能力打造+工業場景精調”的微調策略,基於超200wantiaoshipinshujugouchengdedaguimoxunlianjijinxingyuxunlian,suihouyinruyoubixuanzaigongchangshixunzhongjileideyijigongyeshujujijinxingweitiao,bingduigongyechangjingrenwuguihuashujujiayiqingxiyuzhenghe,goujiangaoxiaoduomotaidamoxingxuexibihuan。tongguozheyiliucheng,moxingnenggoukuaisuxuexigongyechangjingdeshijiaotezheng、任務規則與操作偏好,最終顯著提升人形機器人在工業場景中的理解準確率、規劃適配性與決策可靠性,實現在多種複雜場景中的泛化性與穩定性。

Prompt:"Move the material box onto the pile of boxes next to it."Thinker:"The middle slot is the best one for the material box."Walker S2在工業場景中自主規劃任務
在Thinker大模型技術體係的全方位賦能下,優必選新一代工業人形機器人Walker S2 實現“最強大腦”再進化,不僅具備高精準環境感知能力,更能夠在動態場景中高效完成任務分解、實時調整與穩定規劃。借助Thinker,Walker S2可精準識別設備、物(wu)料(liao)與(yu)障(zhang)礙(ai)物(wu),深(shen)度(du)理(li)解(jie)場(chang)景(jing)語(yu)義(yi)及(ji)操(cao)作(zuo)前(qian)後(hou)邏(luo)輯(ji)關(guan)聯(lian),顯(xian)著(zhu)提(ti)升(sheng)長(chang)周(zhou)期(qi)任(ren)務(wu)的(de)執(zhi)行(xing)穩(wen)定(ding)性(xing)。在(zai)複(fu)雜(za)流(liu)水(shui)線(xian)環(huan)境(jing)中(zhong),機(ji)器(qi)人(ren)展(zhan)現(xian)出(chu)持(chi)續(xu)連(lian)貫(guan)的(de)規(gui)劃(hua)能(neng)力(li),大(da)幅(fu)降(jiang)低(di)對(dui)人(ren)工(gong)幹(gan)預(yu)的(de)依(yi)賴(lai)。
實際應用數據顯示,相比僅基於通用數據微調的模型,采用工業數據集進行二次微調後,Walker S2在拆碼垛規劃等典型任務的中的規劃精度提升超過 20%,有力驗證了該技術方案的產業化價值,相關技術報告將在arxiv上發布。

Prompt:"Move the material box onto the roller rack."Thinker:"First locate the roller rack and then place material box."Walker S2在工業場景中自主規劃任務
當前,人形機器人正在進入大規模應用的關鍵階段,其發展亟需與開發者共同構建開放、協(xie)同(tong)的(de)應(ying)用(yong)生(sheng)態(tai)。為(wei)此(ci),優(you)必(bi)選(xuan)將(jiang)逐(zhu)步(bu)開(kai)源(yuan)一(yi)係(xi)列(lie)業(ye)界(jie)稀(xi)缺(que)的(de)工(gong)業(ye)場(chang)景(jing)數(shu)據(ju)集(ji)與(yu)通(tong)用(yong)基(ji)礎(chu)大(da)模(mo)型(xing),為(wei)全(quan)行(xing)業(ye)提(ti)供(gong)源(yuan)自(zi)實(shi)際(ji)應(ying)用(yong)一(yi)線(xian)的(de)高(gao)質(zhi)量(liang)合(he)規(gui)數(shu)據(ju)資(zi)源(yuan)。開(kai)發(fa)者(zhe)可(ke)基(ji)於(yu)優(you)必(bi)選(xuan)多(duo)模(mo)態(tai)大(da)模(mo)型(xing)Thinker,麵mian向xiang各ge類lei新xin場chang景jing開kai展zhan精jing調tiao與yu二er次ci開kai發fa,助zhu力li提ti升sheng開kai發fa效xiao率lv。我wo們men期qi待dai與yu全quan球qiu開kai發fa者zhe攜xie手shou,共gong創chuang工gong業ye人ren形xing機ji器qi人ren的de應ying用yong生sheng態tai,為wei具ju身shen智zhi能neng行xing業ye的de加jia速su發fa展zhan注zhu入ru持chi續xu動dong能neng。