在美國科羅拉多州丹佛舉行的CVPR 2026現場,銀河通用聯合研究團隊發佈了一項可能改寫人形機器人運動控制歷史的成果——AstraBrain-WBC 0.5。這個被稱為“全球首個人形通用小腦GPT基座大模型”的系統,用一組數據直接刷新了行業認知:引入20億幀人類行為數據、真機實測全面超越SONIC、零樣本泛化成功率達到92.58%。
這不僅是數字上的提升,更意味著人形機器人的“身體”開始擁有類似語言大模型的規模化智能。在沒有任何預先編程的情況下,搭載該模型的機器人可以拿起鋤頭在泥地幹活,可以穩定地擼貓,也可以在拳打腳踢的干擾下保持平衡,甚至流暢地跳起華爾茲或完成武術踢腿。這些高動態、高複雜度的動作,全部是零樣本完成,無需針對具體任務進行微調。
該成果的核心在於,研究團隊徹底拋棄了傳統運動控制中常用的淺層MLP(多層感知機)架構,轉而採用GPT風格的因果Transformer。他們將人體全身運動視為一種“動作語言”,用處理自然語言的方式去理解和生成動作序列。在僅使用200萬token訓練數據時,三層MLP的成功率為76.89%,而參數量僅570萬的AstraBrain-WBC 0.5-S版本就達到了83.26%。當數據規模擴大到20億幀、模型參數擴展到8040萬時,成功率躍升至92.58%,將傳統方法遠遠甩在身後。這首次證明了在人形運控領域,Scaling Law(規模法則)同樣真實存在。
支撐這一性能飛躍的是龐大的數據基建。20億幀的動作數據規模,比此前最常用的公開數據集AMASS(約720萬幀)高出兩個數量級,是業內同類跟蹤模型訓練集的200倍以上。團隊整合了多個公開數據集與超過一千小時的內部採集數據,並通過諧波運動嵌入技術,將海量數據按動作特徵聚類為約300個運動簇,解決了數據“消化不良”的問題。
在訓練策略上,團隊採用了“先分後總”的雙階段方法。第一階段,為300個運動簇分別訓練了約300個PPO(近端策略優化)運動專家,讓每個專家精通一類動作;第二階段,通過DAgger(數據集聚合)算法,將300個專家的“集體智慧”蒸餾到單一的AstraBrain-WBC 0.5模型中。這相當於先培養一批專科醫生,再會診培養出一位全科醫生。這一過程消耗了15000 GPU小時中75%的算力,最終實現了專家級性能與單一模型通用性的統一。
值得關注的是,儘管模型容量大幅增加,其部署效率並未妥協。通過ONNX導出、TensorRT編譯等工程優化,該模型在單張RTX 4090顯卡上的端到端推理延遲被壓縮到1.5毫秒以下,優於許多傳統小模型方案。這打破了“大模型必然慢”的偏見,為未來更大規模模型的實時控制奠定了基礎。
從產業角度看,AstraBrain-WBC 0.5作為一個預訓練的運控基座,允許其他研究者直接進行零樣本動作跟蹤,大幅降低了開發門檻。其開源策略可能加速全球範圍內的二次開發。在娛樂、服務等場景,它讓“一鍵生成複雜擬人化表演”成為可能,例如舞蹈編導可以直接將創意動作傳遞給機器人執行。
這項工作並非憑空出現。它是在2024年伯克利團隊《Humanoid Locomotion as Next Token Prediction》論文基礎上的重大跨越。伯克利的工作主要聚焦於行走這一相對單一的任務,而AstraBrain-WBC 0.5則將GPT範式推向了涵蓋舞蹈、武術、搬運等全身運動的廣闊領域,實現了從“只會走”到“全身動”的指數級難度跨越。其零樣本泛化能力和對高動態動作的支持,標誌著人形機器人運控正從專用小模型時代,邁向通用基座大模型的新階段。