AI 初创公司 Decart 于周三正式发布了其最新的交互式世界模型 Oasis 3,该模型能够实时生成高仿真的驾驶环境,目前已通过 API 向开发者开放。此举标志着这家成立仅两年的公司,正将其技术从电商和直播领域,强力推向自动驾驶等物理 AI 应用的前沿。

Decart 联合创始人兼 CEO Dean Leitersdorf 表示,Oasis 3 将成为“首个人们可以在其上进行编程的可用世界模型”,并预期会围绕它涌现出一个全新的开发者社区。事实上,该公司已拥有超过 10 万名 开发者社区成员,许多人在其基础视频模型 Lucy 上构建产品。Oasis 3 正是基于该基础模型,代表了公司向物理世界的进军。其 API 访问定价为每秒 0.02 美元,企业版价格则根据具体用例而定。

此次发布正值世界模型赛道日益拥挤之际。去年,Google 发布了研究预览版 Genie 3李飞飞World Labs 也推出了面向商业用途的 Marble 模型。视频生成领域的初创公司如 LumaRunway,同样在将其具备物理感知能力的视频模型转化为世界模型。

Oasis 3 的核心优势在于其照片级真实感和无限生成能力。这得益于 Decart 的另一项核心技术——DOS(Decart 优化堆栈) 软件,该软件能让模型在 Nvidia亚马逊谷歌 的硬件上高效运行,使其运行成本远低于竞争对手。Leitersdorf 强调,通过这种垂直整合,公司运行模型的成本比业内其他公司低一个数量级以上。他透露,公司成立至今的总消耗“远低于” 1 亿美元

就在几周前,Decart 刚完成了 3 亿美元 的融资,估值飙升至近 40 亿美元。此轮融资吸引了包括 丰田AdobeeBay 在内的一系列战略投资者,这些公司本身也是潜在客户。现有投资者 Nvidia 也参与了本轮。Leitersdorf 称,融资是由于电商、直播和物理 AI 领域对其模型的“巨大需求增长”。

从功能上看,Oasis 3 能生成物理上准确的多摄像头环境——一个前置和两个侧置——用于训练和测试系统。与提供有限演示或研究预览的竞品不同,Decart 允许开发者无限生成场景,这对于希望测试尽可能多边缘案例的自动驾驶开发者来说非常理想。在与其他模型的对比测试中,有观察指出,Oasis 3 通过单一文本提示生成的场景,在照片级真实感上表现最为出色,且能持续交互数小时,这暗示了其竞争对手可能缺乏的效率。

然而,该模型并非没有缺陷。在长时间生成世界时,其场景的主题完整性会显著下降。测试发现,系统能出色地创建符合提示的初始场景,例如一个美丽的 纽约 早晨街景。但随着驾驶的进行,环境会逐渐失去纽约的特色,变得像任何一个普通的西方城市。当试图返回最初的十字路口时,它已消失,被一个全新的环境所取代。此外,操控响应不够灵敏,车辆时常失控,甚至会直接穿过其他车辆,表明模型在物理模拟上仍有不足。

Leitersdorf 将此称为“我们正在攻克的一个重大研究难题”,并将其部分归因于“关于良好驾驶的数据远比事故数据多得多”。这一物理一致性的挑战,与 Oasis 3 自回归的架构本质有关。该模型逐帧生成画面,并回顾之前生成的内容来决定下一步,这是一个计算密集型过程。为了保持一致性,Decart 团队正在努力提升模型的记忆长度。Leitersdorf 解释说,每生成一帧大约需要 8000 个 token,以每秒数十帧的速度生成,上下文窗口会迅速被填满。团队正研究如何实现更长的上下文,以存储数百万个 token,并进行压缩。

尽管存在这些局限,Oasis 3 的发布仍被视为世界模型从实验室走向更广泛开发者社区的关键一步。Decart 的策略——通过开放 API 构建生态,而非仅提供封闭的解决方案——可能重塑自动驾驶模拟工具的市场格局,其最终影响将取决于它能否快速解决物理一致性和长期记忆等核心难题。