http://kadhoai.com.cn 2026-04-29 17:33:31 來源:銀河通用機器人
在語言模型的發展曆程中,GPT-2 之所以成為一個關鍵裏程碑,並不隻是因為模型本身能力的提升,更因為它第一次係統性地定義了一個問題——如何讓模型有效利用互聯網規模的異構數據。
從那一刻起,語言模型不再依賴少量高質量標注數據,而是開始以“全量數據”為燃料,進入持續 Scaling 的時代。
但在具身智能領域,這個問題從未被真正解決。
不同來源的數據彼此割裂:機ji器qi人ren數shu據ju與yu人ren類lei數shu據ju難nan以yi統tong一yi,真zhen實shi與yu仿fang真zhen難nan以yi融rong合he,有you動dong作zuo標biao注zhu與yu無wu動dong作zuo視shi頻pin難nan以yi協xie同tong,高gao質zhi量liang與yu低di質zhi量liang數shu據ju往wang往wang被bei割ge裂lie使shi用yong。這zhe些xie結jie構gou性xing的de斷duan層ceng,使shi得de具ju身shen智zhi能neng始shi終zhong停ting留liu在zai“數據稀缺驅動”的階段,難以走向規模化學習。
近日,銀河通用機器人發布的跨本體「隱式世界-動作基礎模型」LDA,正是對這一問題的正麵回答。
其核心突破不單在於模型能力的探索,而在於世界範圍內首次在數據層麵實現:虛實共融、人機混合、質量參差、有無動作標簽的數據統一有效利用。
換句話說:一個模型,開始能夠“吞吐全部數據,並讓所有的數據各盡其用”。
這也意味著,具身智能第一次真正具備了類似 GPT-2 的能力——進入以數據規模驅動性能持續提升的新階段。
具身數據範式新標準:從“篩選數據”到“組織數據”
在具身智能中,數據問題從來不是“有沒有”,而是“能不能被統一利用”。
長期以來,不同類型的數據彼此割裂:真(zhen)實(shi)機(ji)器(qi)人(ren)數(shu)據(ju)規(gui)模(mo)有(you)限(xian),遙(yao)操(cao)作(zuo)數(shu)據(ju)成(cheng)本(ben)高(gao)昂(ang),人(ren)類(lei)視(shi)頻(pin)缺(que)乏(fa)動(dong)作(zuo)標(biao)注(zhu),互(hu)聯(lian)網(wang)數(shu)據(ju)難(nan)以(yi)對(dui)齊(qi)物(wu)理(li)世(shi)界(jie),而(er)仿(fang)真(zhen)數(shu)據(ju)又(you)始(shi)終(zhong)麵(mian)臨(lin)真(zhen)實(shi)性(xing)約(yue)束(shu)。這(zhe)使(shi)得(de)具(ju)身(shen)智(zhi)能(neng)始(shi)終(zhong)依(yi)賴(lai)少(shao)量(liang)高(gao)質(zhi)量(liang)數(shu)據(ju)驅(qu)動(dong),難(nan)以(yi)走(zou)向(xiang)規(gui)模(mo)化(hua)。
銀河通用的解決方式,是構建完整的數據基礎設施——銀河星數(AstraData),並在 LDA 中實現對全類數據的統一完整運用。
圍繞這一體係,銀河通用構建了一個自下而上的數據結構(五層金字塔):

互聯網圖像/視頻/文本數據(底層):規模最大、成本最低,用於構建基礎感知與語義理解能力,但與具體動作執行相關性較弱
人類行為數據(次底層):提供動作先驗與任務理解,將“視覺認知”連接到“行為語義”
多本體合成仿真數據(中間層,銀河自研合成數據管線產出):以物理一致性為約束,大規模生成可控、多樣的機器人交互數據,實現從認知到執行的關鍵過渡
真實遙操作數據(高層):提供高質量動作示範,但規模與采集效率受限
真實機器人自主運行數據(頂層):來自真實部署環境的閉環數據,直接反映係統在現實世界中的運行表現,並持續驅動強化學習與係統優化
高質量專家數據:同時用於策略與動力學建模,定義“最優動作”
低質量與噪聲數據:用於前向與逆向動力學學習,刻畫真實世界演化
無動作標注視頻:用於視覺預測,提取行為結構與潛在意圖
在這一框架下,數據不再被簡單劃分為“有用或無用”,而是被係統性重組進統一的世界-動作模型之中。
這一範式在 LDA 中首次展現出清晰的規模化特征:隨著數據規模從數千小時擴展至數萬小時,模型性能持續穩定提升。

尤其關鍵的是:即使引入大量低質量甚至失敗數據,模型性能不降反升;在高質量動作數據耗盡後,僅依賴無動作標注的人類視頻,模型依然可以持續進步。
這意味著,低質量數據與無動作數據,同樣可以驅動具身模型的持續 Scaling——這一點,是傳統行為克隆(BC)及既有世界模型方法難以實現的。
從這個角度看,LDA 不僅是一個模型突破,更是「銀河星數」數據體係在模型層的關鍵閉環——標誌著具身智能開始真正進入以數據驅動的規模化發展階段。
具身模型範式統一:從 VLA, World Model 到 World Action Model
如果說數據決定模型能學什麼,那麼模型結構決定它如何理解這些數據。
傳統機器人模型,本質上是從感知到動作的映射,其能力邊界在於:它可以執行動作,但並不真正理解“動作之後世界會發生什麼”。
LDA 在這一點上進行了根本性改變。
銀河通用提出並實踐的,是將 World Model(世界模型)與 Action Model(動作模型)統一的框架,即 WAM(World-Action Model)。
在模型層麵,LDA 並不是一次結構創新,而是銀河通用長期技術路線的自然延伸。
銀河通用提出並實踐的,是將World Model(世界模型)與Action Model(動作模型)統一的框架,即 WAM(World-Action Model)。
這一方向如今已成為具身智能領域的研究熱點,但早在 2025 年 3 月,銀河通用發表了 DyWA: Dynamics-adaptive World Action Model, 在全球範圍內首次對 WAM 的概念進行結構化定義,並在接觸動力學複雜的任務實現了成功的驗證。

2025 年 3 月銀河通用團隊率先對 World-Action Model 展開前沿探索

在論文中,團隊對 WAM 進行了係統性的定義
從這一時間節點來看,團隊並非在跟隨趨勢,而是在這一關鍵範式尚未形成行業共識之前,就已經完成了前瞻研究。
也正是在這一技術路徑的持續演進下,LDA 得以在同一模型中統一學習策略、動力學與視覺預測能力,形成真正閉環的“世界—行動”聯合建模框架,使模型從“執行動作”走向“理解並作用於世界”。
在這一框架下,模型在同一體係中同時學習:
策略學習(Policy Learning):從當前觀測生成動作
前向動力學(Forward Dynamics):預測動作將如何改變世界
逆向動力學(Inverse Dynamics):從結果反推中間行為
視覺預測(Visual Forecasting):在無動作條件下推演世界未來
這些能力不再彼此割裂,而是在同一表示空間與訓練過程中協同優化,形成一個完整的“感知—決策—反饋”閉環。

這帶來了以往模型難以實現的能力躍遷,換句話說,在「銀河星腦」的整體架構中,LDA 讓機器人第一次具備了這樣一種能力:既能行動,也能理解行動如何改變世界。
這一步,使機器人從“執行任務的工具”,開始邁向“理解世界的係統”。
視覺表征統一和動作對齊:麵向規模化的係統解法
World Action Model 類方法通常使用 VAE 派生的像素級表示進行動力學預測。這條路看似合理,卻暗藏一個結構性缺陷:VAE 潛空間將外觀、幾何、動力學混雜在一起,不同機器人平台、不同光照場景的數據在這個空間裏難以對齊,導致動力學學習受到嚴重幹擾,更重要的是——難以隨規模擴展持續收益。
論文數據直接說明了這一點:將 UWM 從 0.1B 擴展到 1B,RoboCasa-GR1 成功率僅從 14.2% 提升至 19.3%,即使替換為 MM-DiT 也隻有 20.0%,Scaling 幾乎停滯。
LDA 的核心選擇,是放棄 VAE,轉向 DINO 結構化潛空間。DINO 通過自監督預訓練,天然過濾光照、紋理等外觀冗餘,保留物體級語義與空間結構。在這個空間中,不同機器人、不同環境的數據具有一致的表達形式——外觀差異被壓製,物理相關信息被突出,使跨本體的動力學學習真正成為可能。

而僅有視覺統一還遠遠不夠,真正阻礙具身大模型擴展的另一堵牆,是動作空間的割裂。
不同機器人本體往往擁有完全不同的執行器形式:兩指夾爪、多指靈巧手、吸盤、剪刀式末端執行器……如果仍然沿用各自獨立的關節空間(joint space)建模,動作語義天然無法共享,數據規模再大,也隻是分散在彼此孤立的數據孤島中。
LDA 首次係統性地提出了一套統一的 hand-centric action space,將所有動作統一映射到“手如何作用於世界”這一物理本質上,而不是機器人自身的關節定義上。
具體來說,動作由兩部分組成:
其一,是末端執行器的 delta wrist pose,即手腕在連續時刻之間的位姿變化(位置 + 姿態);這部分刻畫的是操作意圖本身,例如靠近、推拉、插入、翻轉、對齊等跨本體共享的核心操作語義。
其二,是 finger configuration,即手部接觸形態。對於 parallel-jaw gripper(平行夾爪),使用單自由度的 gripper width 表示開合狀態;而對於 multi-finger dexterous hand(多指靈巧手),則使用在 wrist 坐標係下定義的關鍵點(keypoints)來描述手指構型,而非依賴不同本體各異的關節參數。
這一設計的關鍵突破在於:它不再讓模型學習“某台機器人怎麼動關節”,而是學習“手如何與物體發生作用”。
這意味著,夾取、旋轉、插入、剪jian切qie這zhe類lei操cao作zuo,不bu再zai被bei綁bang定ding在zai某mou一yi種zhong機ji械xie結jie構gou上shang,而er能neng夠gou在zai不bu同tong本ben體ti之zhi間jian共gong享xiang動dong力li學xue規gui律lv。無wu論lun是shi仿fang真zhen中zhong的de雙shuang指zhi夾jia爪zhao,還hai是shi真zhen實shi世shi界jie中zhong的de多duo指zhi靈ling巧qiao手shou,模mo型xing看kan到dao的de都dou是shi統tong一yi的de物wu理li交jiao互hu語yu言yan。
超強真機表現:跨本體、少樣本、長程靈巧操作
LDA 在真實世界中展現出強大的泛化與執行能力,模型在全部任務類別上穩定超越 GR00T-N1.6 和 π₀.₅,展現出更強的泛化與適應能力。

GROOT-N1.6、π0.5、LDA 三項工作在各類任務中使用二指夾爪操作的成功率對比

GROOT-N1.6、π0.5、LDA 三項工作在具體任務中使用靈巧手操作的成功率對比
少樣本跨本體泛化
從工業場景中的物體搬運,到零售環境中的取放操作,再到家庭中的日常任務,LDA 能夠在多種場景下穩定執行任務。

值得強調的是,所有測試所使用的機器人本體,均未出現在預訓練數據中。
在這一嚴格設置下,在 Pick-and-Place 任務中進一步引入多種分布外擾動,包括未見位置、新物體以及背景變化。
結果表明,LDA 在各類擾動下仍能保持較高成功率,而僅依賴行為克隆(BC)的基線模型性能則出現顯著下降。
這表明,LDA 學到的不隻是“動作模仿”,而是能夠跨本體遷移的世界-動作結構。
長程靈巧操作
在更具挑戰性的長程任務與高自由度操作中,LDA 同樣表現出色。例如,模型可以完成“煎牛排”“疊紙杯塔”等複雜操作,這類任務既需要長時序規劃能力,也依賴精細的接觸建模與控製能力。
在 LDA 驅動下,機器人可以勝任煎牛排這一長程任務,即便中途受到幹擾(打斷現有任務,發布新任務),機器人依然可以隨機應變,按照指令理解並行動
失敗數據讓性能再提升
一個更具啟發性的現象來自低質量真機數據。
在相同的數據設置下,將這部分包含大量失敗和不穩定操作的數據加入訓練: 對於 π₀.₅,性能明顯下降;而對於 LDA,性能反而持續提升。
這表明,LDA 並不是簡單依賴“幹淨數據”,而是能夠從失敗中學習世界的真實動力學,將原本被視為噪聲的數據轉化為有效信號。
具身基礎模型進入“可規模化時代”
LDA 的突破,意味著具身智能的 scaling 路徑正在發生根本性變化:它不再依賴稀缺而昂貴的專家示範數據作為唯一燃料,而是開始向更廣泛、更真實、更複雜的數據來源全麵打開——包括業務回流數據、低質量操作軌跡,以及大規模人類行為視頻。
在這一範式下,數據不再被嚴格篩選為“可用”與“不可用”,而是被統一納入模型對世界的建模過程之中。真正決定能力上限的,不再是數據是否完美,而是模型是否具備從異構數據中抽取結構、規律與因果關係的能力。
從這個角度看,LDA 回答的並不隻是“如何構建一個更強的模型”,而是一個更基礎的問題:機器人,是否可以像語言模型一樣,從海量異構數據中持續學習世界本身?
而 LDA 給出的答案正在變得清晰:當動力學學習、策略學習與視覺預測被統一到同一表示空間,當低質量甚至失敗數據也能轉化為有效監督信號,具身智能就第一次具備了“從真實世界持續學習”的基礎條件。
在這一進程中,銀河通用將 LDA 的核心算法與代碼體係全麵開源,希望推動行業從封閉優化走向開放共建,加速基礎能力的整體躍遷。
更重要的是,這一能力並非孤立存在,而是嵌入在「銀河星腦(AstraBrain)」的完整技術體係之中:從「銀河星坊」所構建的數據基礎設施,到跨本體的世界-動作基礎模型,再到麵向真實場景的持續部署與反饋學習閉環,正在形成一條完整的具身智能技術管線。
接下來,這一體係將進一步向真實應用場景延展,從工業製造、零售服務,到複雜開放環境中的自主作業能力,推動具身智能從“可演示能力”,走向“可持續運行能力”,並最終成為新一代生產力基礎設施的一部分。