星海图正式发布了新一代具身基础模型G0.5,该模型基于VLA(视觉-语言-行动)架构,让机器人能够“边思考边行动”。在演示中,R1 Lite机器人仅凭一句“帮我把毛巾放进洗手池”的自然语言指令,就能自主完成识别毛巾与洗手池位置、规划移动路径并协调双臂放置物体等连续操作。关键是,所有任务都在完全陌生的环境中进行,零样本——未做过任何现场微调,模型依赖的是大规模预训练形成的可迁移操作智能。

过去,机器人每学习一项新任务,往往需要重新采集数据、微调模型并适配场景,泛化能力十分有限。星海图则通过海量多任务预训练,将抓取、放置、推拉、开合、移动等原子动作抽象为可组合的技能单元,让G0.5能应对新物体、新环境和新指令的组合。官方称这种能力为“言出法随”,用一个模型、一套权重同时驱动推理与行动,大幅降低了部署成本。

具身智能的底层逻辑正从专用算法向通用模型演进。这与特斯拉Optimus人形机器人的技术思路有相通之处——两者均追求通用操作能力,而非仅能在固定产线上重复动作。星海图G0.5的零样本泛化表现,证明VLA模型可以直接将语言认知映射为物理世界的实时控制,为人形机器人的家庭服务、轻工业等场景提供了可行路径。

从行业视角看,该进展意味着中国在具身智能基础模型领域补上了关键一环。当模型具备了对未知环境的即时适应力,机器人从实验室走向复杂商业场景的速度可能加快。不过,目前G0.5的演示仍限于桌面级双臂操作,距离全身运动、复杂工具的灵活使用还有很长距离。市场会关注这类技术能否在成本、可靠性和规模化训练上持续突破,以及它与特斯拉Optimus、Figure AI等系统的代际竞争如何演变。