Waypoint-1.5: 面向日常GPU的更高保真交互式世界
摘要
Overworld发布Waypoint-1.5,一款面向日常GPU的实时视频世界模型,具备改进的视觉保真度,并新增360p和720p档位以支持更广泛的硬件设备。
查看缓存全文
缓存时间: 2026/05/08 09:08
Waypoint-1.5:面向日常 GPU 的更高保真交互式世界
来源:https://huggingface.co/blog/waypoint-1-5 返回文章列表 (https://huggingface.co/blog)
- Waypoint-1.5 是什么? (https://huggingface.co/blog/waypoint-1-5#what-is-waypoint-15)
- Waypoint-1.5 有哪些新特性? (https://huggingface.co/blog/waypoint-1-5#whats-new-in-waypoint-15)
- 这对世界模型为何重要 (https://huggingface.co/blog/waypoint-1-5#why-this-matters-for-world-models)
- 如何体验 Waypoint-1.5 (https://huggingface.co/blog/waypoint-1-5#how-to-experience-waypoint-15)
- 未来展望 (https://huggingface.co/blog/waypoint-1-5#the-path-forward)
- 保持联系 (https://huggingface.co/blog/waypoint-1-5#stay-in-touch)
Waypoint-1.5 权重已上架 Hub
- Waypoint-1.5-1B (https://huggingface.co/Overworld/Waypoint-1.5-1B)
- Waypoint-1.5-1B-360P (https://huggingface.co/Overworld/Waypoint-1.5-1B-360P)
立即体验
- https://overworld.stream/
- Biome 桌面客户端 (https://github.com/Overworldai/Biome/)
- Hugging Face
waypoint 1.5
https://huggingface.co/blog/waypoint-1-5#what-is-waypoint-15Waypoint-1.5 是什么?
Waypoint-1.5 是 Overworld 推出的新一代实时视频世界模型,旨在让交互式生成世界走进人们实际拥有的硬件设备。
Waypoint 的首个版本证明了实时生成世界的可行性。它展示了交互式世界模型不仅可以是被动式的视频演示,本地可运行的系统也能够开始弥合“生成世界“与“真正踏入世界“之间的鸿沟。
Waypoint-1.5 直接在此基础上构建。本次发布提升了视觉保真度,扩展了可在本地运行模型的硬件范围,并朝着无需数据中心级算力的交互式世界模拟又迈进了一步。
在 RTX 3090 至 5090 等桌面硬件上,Waypoint-1.5 能够以最高 720p 和 60 FPS 的规格生成实时环境。本次发布还引入了 360p 级别,专为更广泛的消费级硬件(包括游戏本,以及即将支持的 Apple Silicon Mac)流畅运行而设计。
https://huggingface.co/blog/waypoint-1-5#whats-new-in-waypoint-15Waypoint-1.5 有哪些新特性?
Waypoint-1.5 最大的变化是可及性。
Waypoint-1 证明了核心体验的可行性。Waypoint-1.5 则致力于让这一体验在更多设备上实现,同时不牺牲实时交互性。这意味着需要构建两个模型级别:面向高性能硬件的 720p 模型,以及为更广泛部署优化的 360p 模型。
我们还大幅扩展了训练规模。Waypoint-1.5 的训练数据量接近 Waypoint-1 的 100 倍,显著提升了模型生成更连贯环境以及更一致时序运动的能力。
在底层,Waypoint-1.5 还采用了更高效的视频建模技术,以减少帧间冗余计算。这一点至关重要,因为实时世界模型的评判标准不仅在于单帧画面质量,更在于世界能否即时响应、在移动过程中保持连贯,以及在本地硬件上保持可用性。
https://huggingface.co/blog/waypoint-1-5#why-this-matters-for-world-models这对世界模型为何重要
近期生成式视频和世界模型的许多进展都聚焦于视觉保真度。这些成果固然重要,但仅靠保真度并不足以让交互式世界感觉真实。
人们记住的是响应性。他们记住的是环境是否会对自己做出反应、运动是否连贯、探索过程中世界是否保持完整,以及整体体验是否即时而非延迟。
这正是我们最关注的差距:“观看生成场景“与“真正身处其中“之间的区别。
如果世界模型只能运行在大型 GPU 集群上,它们不过是令人印象深刻的演示。如果它们能在消费级硬件上本地运行,则会变得更有价值:成为交互式娱乐、创意工具、仿真模拟,以及人们可以真正探索的 AI 原生环境的基础。
Waypoint-1.5 正是围绕这一理念设计的:不只是更好的视频,而是更响应、更可探索、同时在消费级硬件上保持可及性的世界。
https://huggingface.co/blog/waypoint-1-5#how-to-experience-waypoint-15如何体验 Waypoint-1.5
有两种方式可以体验 Waypoint-1.5。
第一种是通过 Overworld Biome (https://github.com/Overworldai/Biome/) 进行本地运行。本次发布旨在支持广泛的硬件配置,更新后的 Biome 运行时让本地设置更加简便。借助新的安装流程,用户从下载到本地运行模型只需几分钟。
第二种是 Overworld Stream (https://www.overworld.stream/),无需任何本地设置即可在浏览器中即时体验 Waypoint-1.5。
无论你希望即时访问还是完全本地控制,Waypoint-1.5 都支持两者。
此外,我们还提供了 World Engine (https://github.com/Wayfarer-Labs/world_engine),这是我们灵活易用的核心推理库,为官方客户端以及近十余个第三方客户端和库提供支持。
https://huggingface.co/blog/waypoint-1-5#the-path-forward未来展望
Waypoint 始于一个简单的问题:生成式世界需要具备什么条件才能真正实现交互?
早期的生成系统证明模型可以产出令人信服的图像和视频。但构建人们能够实时探索、控制和交互的环境,则完全是另一项挑战。
Waypoint-1.5 是朝这一方向的又一步,在提升保真度和扩展硬件可及性的同时,持续推动实时交互式生成走向本地机器。
我们认为,世界模型的未来不仅取决于它们能渲染什么,更取决于人们能否真正实时地栖居其中并与之交互。
下载 Waypoint-1.5,使用 Biome 本地运行,或在 Overworld.stream 上即刻体验。
如果你用它构建了什么有趣、新奇或令人沉浸的作品,我们很乐意看到。
https://huggingface.co/blog/waypoint-1-5#stay-in-touch保持联系
- Overworld 官网 (https://over.world/)
- Discord (https://discord.gg/MEmQa7Wux4)
- X / Twitter (https://x.com/overworld_ai)
相似文章
DreamForge-World 0.1 预览版:低算力实时可控世界模型
DreamForge-World 0.1 预览版是一个低算力世界模型,可在消费级GPU上实现实时交互模拟,支持键盘/鼠标控制,在单个RTX 4090上以480p分辨率达到14-15 FPS。
WorldCraft:从相机导航到交互式视频世界模型中的物体操控
WorldCraft扩展了交互式视频世界模型,通过专门的控制流水线,在保持相机导航能力的同时实现物体级别的轨迹控制。
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
Decart的新世界模型可以模拟数小时的逼真驾驶——但有一些注意事项
Decart发布了Oasis 3,一个交互式世界模型,能够实时生成逼真的驾驶环境,并通过API提供。该模型针对自动驾驶仿真及其他物理AI应用,利用Decart的优化堆栈实现成本效益。
@itsPaulAi: 哇哦,Nvidia刚刚发布了一个2.6B开源世界模型,你可以将单张图片、文本提示和轨迹转化为…
Nvidia发布了一个2.6B开源世界模型,能够从单张图片、文本提示和轨迹生成可控世界,并在单个GPU上运行。