智元機器人近日發佈的自研世界模型 Genie Envisioner-Sim 2.0(簡稱 GE 2.0)在全球世界模型評測基準 World Arena 的“感知與動作響應”榜單中拿下頭名。該賽道重點考察模型對物理環境的理解與即時反應能力,參評團隊包括英偉達最新的 DreamDojo 模型、清華大學與斯坦福大學聯合的 Ctrl-World 等一眾國內外頂尖機構。

從技術文檔看,GE 2.0 僅部署了 20 億(2B)參數,卻在對決中戰勝了英偉達、微軟等動輒上千億參數的旗艦模型。這直接驗證了在特定人形機器人場景下,輕量化模型經過針對性訓練後,感知與動作響應的綜合表現可以媲美甚至超越超大模型。智元方面稱,該模型未來將用於其自主研發的雙足人形機器人,以提升在真實物理環境中的交互可靠性。

World Arena 是一套專門衡量世界模型在視覺感知、物理推理、動作規劃等多維度能力的標準化平臺。榜單結果一齣,立刻引起具身智能領域的關注。與自動駕駛所用的感知模型不同,人形機器人的世界模型要求對三維空間、自身本體與物體間的動態關係做出連續預測,因而對模型輕量化、低延遲有著更高需求。GE 2.0 的登頂,某種程度上打破了“參數越大性能越強”的慣性認知,為機器人端側部署提供了新思路。

這條消息在馬斯克關注者圈內同樣激起討論。特斯拉的 Optimus 人形機器人同樣依賴端側視覺與決策模型,馬斯克曾多次強調 Optimus 將是特斯拉未來最大的業務。智元機器人雖然是一家中國初創公司,但創始人“稚暉君”彭志輝在硬科技圈頗有聲望,其技術路線與特斯拉均圍繞通用人形機器人展開。業內分析認為,輕量世界模型的成功可能會促使更多企業重新審視雲端大模型與端側小模型的分配策略——在算力、功耗和實時性約束下,部分推理任務由本地的微型世界模型完成或將成為趨勢,這或許會影響 Optimus 下一步的算法架構演進。

當前人形機器人賽道正處在從實驗室走向量產的關鍵階段,感知能力是其能否在複雜場景中自主作業的基礎。智元此次奪冠雖然只是模型層面的比拼,但為行業展示了一種更具成本效率的技術可能。對關注馬斯克生態的讀者而言,這不僅是競品動態,更可能是影響整個具身智能方向的重要信號。