Decart的新世界模型可以模拟数小时的逼真驾驶——但有一些注意事项

TechCrunch AI 模型

摘要

Decart发布了Oasis 3,一个交互式世界模型,能够实时生成逼真的驾驶环境,并通过API提供。该模型针对自动驾驶仿真及其他物理AI应用,利用Decart的优化堆栈实现成本效益。

Decart推出Oasis 3,这是一个实时世界模型,可为自动驾驶测试生成逼真的驾驶环境,现已通过API提供,供开发者在此基础上构建。
查看原文
查看缓存全文

缓存时间: 2026/06/10 14:44

# Decart 发布全新世界模型,可模拟数小时逼真驾驶场景——但仍有一些局限 | TechCrunch 来源:https://techcrunch.com/2026/06/10/decarts-new-world-model-can-simulate-hours-of-photorealistic-driving-with-some-caveats/ AI 初创公司 Decart (https://techcrunch.com/2024/10/31/decarts-ai-simulates-a-real-time-playable-version-of-minecraft/) 于周三发布了其最新的交互式世界模型 Oasis 3,该模型能够实时生成照片级逼真的驾驶环境,TechCrunch 独家获悉。该模型目前可通过 API 使用。 这家初创公司最初瞄准的是需要大规模模拟罕见驾驶场景的自动驾驶汽车公司,并计划扩展到机器人和其他物理 AI 应用领域。但更大的赌注在于开发者:通过从第一天起就提供 API 访问权限,Decart 试图围绕世界模型构建一个开发者生态系统,就像 OpenAI 对语言模型所做的那样。 "这将是第一个可用的世界模型,开发者可以真正在其之上进行编程,"Decart 联合创始人兼首席执行官 Dean Leitersdorf 告诉 TechCrunch。"我认为围绕这个模型将会出现一个完整的开发者社区。" 这家初创公司已经拥有超过 10 万开发者的社区,其中许多人正在其实时视频模型 Lucy 之上构建产品,主要集中在电子商务和直播领域。Oasis 3 基于该基础模型,代表了公司向物理 AI 领域的进军。Decart 表示,API 访问定价为每秒 0.02 美元,企业定价则根据使用情况而定。 Decart 正在竞争日益激烈的世界模型领域展开角逐。去年,Google 发布了 Genie 3 (https://techcrunch.com/2026/01/29/i-built-marshmallow-castles-in-googles-new-ai-world-generator-project-genie/) 的研究预览版,李飞飞的 World Labs 推出了面向商业应用的 Marble (https://techcrunch.com/2025/11/12/fei-fei-lis-world-labs-speeds-up-the-world-model-race-with-marble-its-first-commercial-product/),而视频生成初创公司如 Luma 和 Runway (https://techcrunch.com/2026/05/15/runway-started-by-helping-filmmakers-now-it-wants-to-beat-google-at-ai/) 也正在将其具有物理感知的视频模型转化为世界模型。 Decart 的 Oasis 3 可生成照片级逼真的驾驶场景,并支持实时交互。**图片来源:** Decart Oasis 3 发布前几周,成立两年的 Decart 筹集了 3 亿美元,Leitersdorf 表示这是由于"我们构建的模型在电子商务、直播和物理 AI 领域需求大幅增长"。这轮融资将 Decart 的估值推高至近 40 亿美元,并吸引了丰田、Adobe 和 eBay 等一系列战略投资者。Leitersdorf 表示,所有这些公司都是潜在客户。现有投资者 Nvidia 也参与了本轮融资。 Oasis 3 的优势在于其模型的照片级真实感和无限生成能力。这得益于 Decart 的一些效率魔法,由该公司的另一款主要产品——DOS(Decart 优化栈)软件提供支持,该软件允许模型在 Nvidia、Amazon 和 Google 的硬件上高效运行,使其模型的运行成本远低于竞争对手。 "这是建立在我们整个实时技术栈之上的,我们将优化做到硬件层面,"Leitersdorf 说。"通过如此垂直整合,我们能够以比行业内任何其他公司低一个数量级的成本来运行这些模型。" 据 Leitersdorf 称,该公司的模型效率如此之高,以至于其整个生命周期内消耗的资金"远低于" 1 亿美元。 Oasis 3 生成物理精确的多摄像头环境——一个前置摄像头和两个侧置摄像头——用于训练和测试系统。此外,Decart 不提供有限的演示和研究预览版,而是允许开发者无限生成场景,这对于希望尽可能尝试更多边缘情况的自动驾驶汽车开发者来说非常理想。 与我尝试过的其他模型(如 Google 的 Genie 3 或 World Labs 的 Marble)相比,Oasis 3 从单个文本提示中生成的逼真环境是我见过最出色的。而且,你可以与其交互数小时,这暗示着 Decart 的竞争对手可能缺乏的一种效率水平。 但是,当你长时间生成一个世界时,模型也会显著退化。 在我的测试中,我发现系统能够始终如一地构建一个与提示匹配的强初始场景,但随着我在世界中移动,主题的一致性迅速下降。我提示它生成一个清晨的纽约市街道,它做到了,而且非常漂亮。但当我继续驾驶时,环境看起来越来越不像纽约,而是更像任何西方城市的标准化版本。 当我试图掉头返回最初的十字路口时,它已经消失了,取而代之的是一个全新的环境。除此之外,控件反应不够灵敏,我经常失去对汽车行驶方向的控制(同样,这是我测试过的其他世界模型共有的缺点)。这种体验与其说是一种连贯的模拟,不如说是一种梦般的、支离破碎的意识流,很快就变得毫无意义。 另一个问题(我在其他世界模型中也见过)是汽车会直接穿过其他汽车,这意味着模型没有在环境中正确模拟物理行为。Leitersdorf 称这是一个"我们现在正在破解的重大研究问题",并将其归因于"相对于事故,关于良好驾驶的数据要多得多"。 造成这种物理一致性困难的部分原因在于这个世界模型的基本工作原理。Oasis 3 是自回归的,意味着它一次生成一帧,并回顾之前生成的内容来决定下一步。这是许多世界模型的一个关键架构特征,也是一个计算密集型特征。 为了保持一致性,Leitersdorf 表示 Decart 团队正在努力提高模型的记忆长度。 "我们生成的每一帧大约有 8,000 个 token,"他说。"以每秒几十帧的速度生成——那就是每秒数十万个 token。上下文窗口很快就会填满。我们正在研究如何做更长的上下文来存储数百万个更多 token,以及如何将记忆压缩成更少的 token。" Leitersdorf 认为,一致性问题的部分解决方案可能会出现在该模型的下一个版本中,该版本将允许用户基于环境的视频(而非图像)来开始生成世界。他承认世界模型作为一个领域仍处于早期阶段。 尽管如此,这位创始人更关注的是当开发者拿到该技术后会发生什么,而不是当前技术的局限性。 "这让我想起了 LLM 的早期,当时 OpenAI 发明了模型的 API,"他说,并指出一个开发者社区的出现通过发现和构建新用例推动了该领域的发展。 "三个月后我们再聊的时候,我们会说,'这里有 100 名开发者,他们用 Oasis 构建了 100 种不同的应用程序,让我们所有人都感到惊讶,'"他说。 *当您通过我们文章中的链接进行购买时,我们可能会获得少量佣金 (https://techcrunch.com/techcrunch-affiliate-monetization-standards/)。这不会影响我们的编辑独立性。*

相似文章

Genie 3:世界模型的新前沿

Google DeepMind Blog

DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。