前蘋果AI高管創企發佈具身模型，機械臂演示打領帶

深圳公司RoboScience發佈通用具身大模型Visics，展示機械臂打領帶任務。

具身智能領域的競爭正從簡單的抓取搬運，邁向對複雜物理交互的理解。6月24日，深圳初創公司RoboScience（機器科學）正式發佈了其通用具身大模型Visics，並通過一段兩臺機械臂協作打領帶的演示視頻，直觀地展現了其技術思路。

這家成立於2024年12月的公司背景引人注目，由前蘋果AI平臺技術負責人、斯坦福大學AI Lab碩士田野，與新加坡國立大學助理教授、斯坦福大學AI Lab博士邵林聯合創立。選擇打領帶這一高難度場景，並非為了展示機器人未來要替人穿衣，而是為了驗證模型對複雜柔性物體和長程操作任務的理解能力。公司創始人兼CEO田野向澎湃科技解釋，相比抓取杯子，打領帶涉及柔性物體的連續形變、穿環、扭結以及中途失敗後的狀態恢復，且整個過程完全在仿真環境中學習完成，未使用任何真機數據。

Visics模型的核心創新在於其提出的VLOA（Vision-Language-Object-Action）架構。與行業內常見的VLA（視覺-語言-動作）路線不同，RoboScience在中間加入了一個關鍵的“O”，即Object Trajectory（物體軌跡）。這並非簡單地指物體本身，而是指被操作物體在三維空間中的運動軌跡和狀態變化。田野認為，當前機器人操作面臨泛化能力差、精細操作難、長程任務誤差累積三大瓶頸。Visics通過將系統拆分為負責理解與預演物體變化的“具身世界模型”和負責執行動作的“通用操作模型”，試圖將學習的核心從“機器人動作”轉向“物體狀態變化”。理論上，這能降低模型對特定硬件的依賴，使得同一個物體軌跡可由不同形態的機器人執行，從而實現跨本體、跨物體的泛化。

這一技術路線的選擇，也與行業面臨的數據瓶頸緊密相關。許多具身智能公司通過遙操作採集真實世界數據，成本高昂且產能有限。RoboScience則另闢蹊徑，選擇了“互聯網視頻+物理仿真”的數據策略。公司聯合創始人汪濤表示，Visics的預訓練主要依賴從互聯網視頻中提取的物體運動數據，以及自研物理仿真引擎RoboMirage生成的仿真操作數據。據披露，公司已積累數百萬小時以物體為中心的視頻數據，並計劃在2026年構建上千萬小時級數據集，同時通過仿真引擎積累數百億次高質量操作軌跡。這種以算力擴展數據規模的方式，旨在解決具身智能面臨的數據產能瓶頸。

儘管演示令人印象深刻，但從Demo走向真實場景的商業化落地，仍是所有具身智能公司面臨的共同考驗。目前，行業較明確的落地場景集中在智慧藥房、無人零售和物流搬運等領域。RoboScience計劃分階段推進商業化，短期內聚焦模型泛化能力，在商超、電商物流等場景完成驗證；中短期目標是推動自研硬件本體量產，並推出具身智能操作系統與開發平臺，將應用拓展至酒店、工廠等更多領域。公司計劃今年實現標準化機器人本體產品的量產，並基於其跨本體的技術原理，提供純軟件授權、控制器方案等多種靈活的交付方式，不綁定自身硬件銷售。

前蘋果AI高管創企發佈具身模型，機械臂演示打領帶

延伸閱讀

相關深度報道

相關每日新聞