具身智能领域的竞争正从简单的抓取搬运,迈向对复杂物理交互的理解。6月24日,深圳初创公司RoboScience(机器科学)正式发布了其通用具身大模型Visics,并通过一段两台机械臂协作打领带的演示视频,直观地展现了其技术思路。

这家成立于2024年12月的公司背景引人注目,由前苹果AI平台技术负责人、斯坦福大学AI Lab硕士田野,与新加坡国立大学助理教授、斯坦福大学AI Lab博士邵林联合创立。选择打领带这一高难度场景,并非为了展示机器人未来要替人穿衣,而是为了验证模型对复杂柔性物体和长程操作任务的理解能力。公司创始人兼CEO田野向澎湃科技解释,相比抓取杯子,打领带涉及柔性物体的连续形变、穿环、扭结以及中途失败后的状态恢复,且整个过程完全在仿真环境中学习完成,未使用任何真机数据。

Visics模型的核心创新在于其提出的VLOA(Vision-Language-Object-Action)架构。与行业内常见的VLA(视觉-语言-动作)路线不同,RoboScience在中间加入了一个关键的“O”,即Object Trajectory(物体轨迹)。这并非简单地指物体本身,而是指被操作物体在三维空间中的运动轨迹和状态变化。田野认为,当前机器人操作面临泛化能力差、精细操作难、长程任务误差累积三大瓶颈。Visics通过将系统拆分为负责理解与预演物体变化的“具身世界模型”和负责执行动作的“通用操作模型”,试图将学习的核心从“机器人动作”转向“物体状态变化”。理论上,这能降低模型对特定硬件的依赖,使得同一个物体轨迹可由不同形态的机器人执行,从而实现跨本体、跨物体的泛化。

这一技术路线的选择,也与行业面临的数据瓶颈紧密相关。许多具身智能公司通过遥操作采集真实世界数据,成本高昂且产能有限。RoboScience则另辟蹊径,选择了“互联网视频+物理仿真”的数据策略。公司联合创始人汪涛表示,Visics的预训练主要依赖从互联网视频中提取的物体运动数据,以及自研物理仿真引擎RoboMirage生成的仿真操作数据。据披露,公司已积累数百万小时以物体为中心的视频数据,并计划在2026年构建上千万小时级数据集,同时通过仿真引擎积累数百亿次高质量操作轨迹。这种以算力扩展数据规模的方式,旨在解决具身智能面临的数据产能瓶颈。

尽管演示令人印象深刻,但从Demo走向真实场景的商业化落地,仍是所有具身智能公司面临的共同考验。目前,行业较明确的落地场景集中在智慧药房、无人零售和物流搬运等领域。RoboScience计划分阶段推进商业化,短期内聚焦模型泛化能力,在商超、电商物流等场景完成验证;中短期目标是推动自研硬件本体量产,并推出具身智能操作系统与开发平台,将应用拓展至酒店、工厂等更多领域。公司计划今年实现标准化机器人本体产品的量产,并基于其跨本体的技术原理,提供纯软件授权、控制器方案等多种灵活的交付方式,不绑定自身硬件销售。