智元机器人近日发布的自研世界模型 Genie Envisioner-Sim 2.0(简称 GE 2.0)在全球世界模型评测基准 World Arena 的“感知与动作响应”榜单中拿下头名。该赛道重点考察模型对物理环境的理解与即时反应能力,参评团队包括英伟达最新的 DreamDojo 模型、清华大学与斯坦福大学联合的 Ctrl-World 等一众国内外顶尖机构。
从技术文档看,GE 2.0 仅部署了 20 亿(2B)参数,却在对决中战胜了英伟达、微软等动辄上千亿参数的旗舰模型。这直接验证了在特定人形机器人场景下,轻量化模型经过针对性训练后,感知与动作响应的综合表现可以媲美甚至超越超大模型。智元方面称,该模型未来将用于其自主研发的双足人形机器人,以提升在真实物理环境中的交互可靠性。
World Arena 是一套专门衡量世界模型在视觉感知、物理推理、动作规划等多维度能力的标准化平台。榜单结果一出,立刻引起具身智能领域的关注。与自动驾驶所用的感知模型不同,人形机器人的世界模型要求对三维空间、自身本体与物体间的动态关系做出连续预测,因而对模型轻量化、低延迟有着更高需求。GE 2.0 的登顶,某种程度上打破了“参数越大性能越强”的惯性认知,为机器人端侧部署提供了新思路。
这条消息在马斯克关注者圈内同样激起讨论。特斯拉的 Optimus 人形机器人同样依赖端侧视觉与决策模型,马斯克曾多次强调 Optimus 将是特斯拉未来最大的业务。智元机器人虽然是一家中国初创公司,但创始人“稚晖君”彭志辉在硬科技圈颇有声望,其技术路线与特斯拉均围绕通用人形机器人展开。业内分析认为,轻量世界模型的成功可能会促使更多企业重新审视云端大模型与端侧小模型的分配策略——在算力、功耗和实时性约束下,部分推理任务由本地的微型世界模型完成或将成为趋势,这或许会影响 Optimus 下一步的算法架构演进。
当前人形机器人赛道正处在从实验室走向量产的关键阶段,感知能力是其能否在复杂场景中自主作业的基础。智元此次夺冠虽然只是模型层面的比拼,但为行业展示了一种更具成本效率的技术可能。对关注马斯克生态的读者而言,这不仅是竞品动态,更可能是影响整个具身智能方向的重要信号。