AI 初創公司 Decart 於週三正式發佈了其最新的交互式世界模型 Oasis 3,該模型能夠實時生成高仿真的駕駛環境,目前已通過 API 向開發者開放。此舉標誌著這家成立僅兩年的公司,正將其技術從電商和直播領域,強力推向自動駕駛等物理 AI 應用的前沿。

Decart 聯合創始人兼 CEO Dean Leitersdorf 表示,Oasis 3 將成為“首個人們可以在其上進行編程的可用世界模型”,並預期會圍繞它湧現出一個全新的開發者社區。事實上,該公司已擁有超過 10 萬名 開發者社區成員,許多人在其基礎視頻模型 Lucy 上構建產品。Oasis 3 正是基於該基礎模型,代表了公司向物理世界的進軍。其 API 訪問定價為每秒 0.02 美元,企業版價格則根據具體用例而定。

此次發佈正值世界模型賽道日益擁擠之際。去年,Google 發佈了研究預覽版 Genie 3李飛飛World Labs 也推出了面向商業用途的 Marble 模型。視頻生成領域的初創公司如 LumaRunway,同樣在將其具備物理感知能力的視頻模型轉化為世界模型。

Oasis 3 的核心優勢在於其照片級真實感和無限生成能力。這得益於 Decart 的另一項核心技術——DOS(Decart 優化堆棧) 軟件,該軟件能讓模型在 Nvidia亞馬遜谷歌 的硬件上高效運行,使其運行成本遠低於競爭對手。Leitersdorf 強調,通過這種垂直整合,公司運行模型的成本比業內其他公司低一個數量級以上。他透露,公司成立至今的總消耗“遠低於” 1 億美元

就在幾周前,Decart 剛完成了 3 億美元 的融資,估值飆升至近 40 億美元。此輪融資吸引了包括 豐田AdobeeBay 在內的一系列戰略投資者,這些公司本身也是潛在客戶。現有投資者 Nvidia 也參與了本輪。Leitersdorf 稱,融資是由於電商、直播和物理 AI 領域對其模型的“巨大需求增長”。

從功能上看,Oasis 3 能生成物理上準確的多攝像頭環境——一個前置和兩個側置——用於訓練和測試系統。與提供有限演示或研究預覽的競品不同,Decart 允許開發者無限生成場景,這對於希望測試儘可能多邊緣案例的自動駕駛開發者來說非常理想。在與其他模型的對比測試中,有觀察指出,Oasis 3 通過單一文本提示生成的場景,在照片級真實感上表現最為出色,且能持續交互數小時,這暗示了其競爭對手可能缺乏的效率。

然而,該模型並非沒有缺陷。在長時間生成世界時,其場景的主題完整性會顯著下降。測試發現,系統能出色地創建符合提示的初始場景,例如一個美麗的 紐約 早晨街景。但隨著駕駛的進行,環境會逐漸失去紐約的特色,變得像任何一個普通的西方城市。當試圖返回最初的十字路口時,它已消失,被一個全新的環境所取代。此外,操控響應不夠靈敏,車輛時常失控,甚至會直接穿過其他車輛,表明模型在物理模擬上仍有不足。

Leitersdorf 將此稱為“我們正在攻克的一個重大研究難題”,並將其部分歸因於“關於良好駕駛的數據遠比事故數據多得多”。這一物理一致性的挑戰,與 Oasis 3 自迴歸的架構本質有關。該模型逐幀生成畫面,並回顧之前生成的內容來決定下一步,這是一個計算密集型過程。為了保持一致性,Decart 團隊正在努力提升模型的記憶長度。Leitersdorf 解釋說,每生成一幀大約需要 8000 個 token,以每秒數十幀的速度生成,上下文窗口會迅速被填滿。團隊正研究如何實現更長的上下文,以存儲數百萬個 token,並進行壓縮。

儘管存在這些侷限,Oasis 3 的發佈仍被視為世界模型從實驗室走向更廣泛開發者社區的關鍵一步。Decart 的策略——通過開放 API 構建生態,而非僅提供封閉的解決方案——可能重塑自動駕駛模擬工具的市場格局,其最終影響將取決於它能否快速解決物理一致性和長期記憶等核心難題。