星海圖正式發佈了新一代具身基礎模型G0.5,該模型基於VLA(視覺-語言-行動)架構,讓機器人能夠“邊思考邊行動”。在演示中,R1 Lite機器人僅憑一句“幫我把毛巾放進洗手池”的自然語言指令,就能自主完成識別毛巾與洗手池位置、規劃移動路徑並協調雙臂放置物體等連續操作。關鍵是,所有任務都在完全陌生的環境中進行,零樣本——未做過任何現場微調,模型依賴的是大規模預訓練形成的可遷移操作智能。
過去,機器人每學習一項新任務,往往需要重新採集數據、微調模型並適配場景,泛化能力十分有限。星海圖則通過海量多任務預訓練,將抓取、放置、推拉、開合、移動等原子動作抽象為可組合的技能單元,讓G0.5能應對新物體、新環境和新指令的組合。官方稱這種能力為“言出法隨”,用一個模型、一套權重同時驅動推理與行動,大幅降低了部署成本。
具身智能的底層邏輯正從專用算法向通用模型演進。這與特斯拉Optimus人形機器人的技術思路有相通之處——兩者均追求通用操作能力,而非僅能在固定產線上重複動作。星海圖G0.5的零樣本泛化表現,證明VLA模型可以直接將語言認知映射為物理世界的實時控制,為人形機器人的家庭服務、輕工業等場景提供了可行路徑。
從行業視角看,該進展意味著中國在具身智能基礎模型領域補上了關鍵一環。當模型具備了對未知環境的即時適應力,機器人從實驗室走向複雜商業場景的速度可能加快。不過,目前G0.5的演示仍限於桌面級雙臂操作,距離全身運動、複雜工具的靈活使用還有很長距離。市場會關注這類技術能否在成本、可靠性和規模化訓練上持續突破,以及它與特斯拉Optimus、Figure AI等系統的代際競爭如何演變。