具身智能領域的競爭正從簡單的抓取搬運,邁向對複雜物理交互的理解。6月24日,深圳初創公司RoboScience(機器科學)正式發佈了其通用具身大模型Visics,並通過一段兩臺機械臂協作打領帶的演示視頻,直觀地展現了其技術思路。
這家成立於2024年12月的公司背景引人注目,由前蘋果AI平臺技術負責人、斯坦福大學AI Lab碩士田野,與新加坡國立大學助理教授、斯坦福大學AI Lab博士邵林聯合創立。選擇打領帶這一高難度場景,並非為了展示機器人未來要替人穿衣,而是為了驗證模型對複雜柔性物體和長程操作任務的理解能力。公司創始人兼CEO田野向澎湃科技解釋,相比抓取杯子,打領帶涉及柔性物體的連續形變、穿環、扭結以及中途失敗後的狀態恢復,且整個過程完全在仿真環境中學習完成,未使用任何真機數據。
Visics模型的核心創新在於其提出的VLOA(Vision-Language-Object-Action)架構。與行業內常見的VLA(視覺-語言-動作)路線不同,RoboScience在中間加入了一個關鍵的“O”,即Object Trajectory(物體軌跡)。這並非簡單地指物體本身,而是指被操作物體在三維空間中的運動軌跡和狀態變化。田野認為,當前機器人操作面臨泛化能力差、精細操作難、長程任務誤差累積三大瓶頸。Visics通過將系統拆分為負責理解與預演物體變化的“具身世界模型”和負責執行動作的“通用操作模型”,試圖將學習的核心從“機器人動作”轉向“物體狀態變化”。理論上,這能降低模型對特定硬件的依賴,使得同一個物體軌跡可由不同形態的機器人執行,從而實現跨本體、跨物體的泛化。
這一技術路線的選擇,也與行業面臨的數據瓶頸緊密相關。許多具身智能公司通過遙操作採集真實世界數據,成本高昂且產能有限。RoboScience則另闢蹊徑,選擇了“互聯網視頻+物理仿真”的數據策略。公司聯合創始人汪濤表示,Visics的預訓練主要依賴從互聯網視頻中提取的物體運動數據,以及自研物理仿真引擎RoboMirage生成的仿真操作數據。據披露,公司已積累數百萬小時以物體為中心的視頻數據,並計劃在2026年構建上千萬小時級數據集,同時通過仿真引擎積累數百億次高質量操作軌跡。這種以算力擴展數據規模的方式,旨在解決具身智能面臨的數據產能瓶頸。
儘管演示令人印象深刻,但從Demo走向真實場景的商業化落地,仍是所有具身智能公司面臨的共同考驗。目前,行業較明確的落地場景集中在智慧藥房、無人零售和物流搬運等領域。RoboScience計劃分階段推進商業化,短期內聚焦模型泛化能力,在商超、電商物流等場景完成驗證;中短期目標是推動自研硬件本體量產,並推出具身智能操作系統與開發平臺,將應用拓展至酒店、工廠等更多領域。公司計劃今年實現標準化機器人本體產品的量產,並基於其跨本體的技術原理,提供純軟件授權、控制器方案等多種靈活的交付方式,不綁定自身硬件銷售。