前苹果AI高管创企发布具身模型，机械臂演示打领带

深圳公司RoboScience发布通用具身大模型Visics，展示机械臂打领带任务。

具身智能领域的竞争正从简单的抓取搬运，迈向对复杂物理交互的理解。6月24日，深圳初创公司RoboScience（机器科学）正式发布了其通用具身大模型Visics，并通过一段两台机械臂协作打领带的演示视频，直观地展现了其技术思路。

这家成立于2024年12月的公司背景引人注目，由前苹果AI平台技术负责人、斯坦福大学AI Lab硕士田野，与新加坡国立大学助理教授、斯坦福大学AI Lab博士邵林联合创立。选择打领带这一高难度场景，并非为了展示机器人未来要替人穿衣，而是为了验证模型对复杂柔性物体和长程操作任务的理解能力。公司创始人兼CEO田野向澎湃科技解释，相比抓取杯子，打领带涉及柔性物体的连续形变、穿环、扭结以及中途失败后的状态恢复，且整个过程完全在仿真环境中学习完成，未使用任何真机数据。

Visics模型的核心创新在于其提出的VLOA（Vision-Language-Object-Action）架构。与行业内常见的VLA（视觉-语言-动作）路线不同，RoboScience在中间加入了一个关键的“O”，即Object Trajectory（物体轨迹）。这并非简单地指物体本身，而是指被操作物体在三维空间中的运动轨迹和状态变化。田野认为，当前机器人操作面临泛化能力差、精细操作难、长程任务误差累积三大瓶颈。Visics通过将系统拆分为负责理解与预演物体变化的“具身世界模型”和负责执行动作的“通用操作模型”，试图将学习的核心从“机器人动作”转向“物体状态变化”。理论上，这能降低模型对特定硬件的依赖，使得同一个物体轨迹可由不同形态的机器人执行，从而实现跨本体、跨物体的泛化。

这一技术路线的选择，也与行业面临的数据瓶颈紧密相关。许多具身智能公司通过遥操作采集真实世界数据，成本高昂且产能有限。RoboScience则另辟蹊径，选择了“互联网视频+物理仿真”的数据策略。公司联合创始人汪涛表示，Visics的预训练主要依赖从互联网视频中提取的物体运动数据，以及自研物理仿真引擎RoboMirage生成的仿真操作数据。据披露，公司已积累数百万小时以物体为中心的视频数据，并计划在2026年构建上千万小时级数据集，同时通过仿真引擎积累数百亿次高质量操作轨迹。这种以算力扩展数据规模的方式，旨在解决具身智能面临的数据产能瓶颈。

尽管演示令人印象深刻，但从Demo走向真实场景的商业化落地，仍是所有具身智能公司面临的共同考验。目前，行业较明确的落地场景集中在智慧药房、无人零售和物流搬运等领域。RoboScience计划分阶段推进商业化，短期内聚焦模型泛化能力，在商超、电商物流等场景完成验证；中短期目标是推动自研硬件本体量产，并推出具身智能操作系统与开发平台，将应用拓展至酒店、工厂等更多领域。公司计划今年实现标准化机器人本体产品的量产，并基于其跨本体的技术原理，提供纯软件授权、控制器方案等多种灵活的交付方式，不绑定自身硬件销售。

前苹果AI高管创企发布具身模型，机械臂演示打领带

延伸阅读

相关深度报道

相关每日新闻