Orca：世界尽在你的脑海中

Hugging Face Daily Papers 2026/06/29 00:00 论文

摘要

本文介绍了Orca，一个世界基础模型，它通过下一状态预测从多模态数据中学习统一的潜在空间，在文本生成、图像预测和具身动作生成等下游任务上优于专门的基线模型。

我们介绍了Orca，这是一个通用世界基础模型的初步实例。Orca从多模态世界信号中学习统一的世界潜在空间，并通过多模态读出接口将其暴露出来。我们并非优化孤立的下一词元、下一帧或下一动作预测，而是以下一状态预测建模为核心，提供了一种统一的状态转换建模方法，以理解、预测和作用于世界。Orca通过两种互补范式学习：无意识学习从连续视频中捕获密集的自然状态转换，而有意识学习通过语言描述的事件和VQA监督来建模稀疏的有意义状态转换。在预训练中，我们构建了一个大规模的世界学习库存数据，包括125,000小时的视频数据和1.6亿个事件注释。预训练后，Orca学习了一个统一的世界潜在空间。为了检查所学潜在空间是否支持下游任务，我们通过三种代表性的下游读出方式进行评估：文本生成、图像预测和具身动作生成。Orca的骨干网络被冻结，只有轻量级的模态特定解码器是可训练的。实验证明了所提范式的可扩展性，并验证了更强的世界潜在空间能实现更强的下游读出。Orca在性能上超越了规模相当的专门基线模型。这些结果表明，Orca作为一个通用世界基础模型，为理解、预测和作用于世界提供了一种有前景的方法。最后，我们讨论了当前的局限性，旨在为社区提供有用的见解和启发。

查看原文

查看缓存全文

缓存时间: 2026/06/30 03:33

论文详情页 - Orca: The World is in Your Mind

来源：https://huggingface.co/papers/2606.30534 作者：

摘要

Orca 通过使用多模态数据进行下一状态预测建模，构建了一个统一的世界潜在空间，并在下游任务中展现出优于特定基线的性能。

我们介绍 Orca，这是一个通用世界基础模型的初始实例化。Orca 从多模态世界信号中学习一个统一的世界潜在空间，并通过多模态读取接口将其暴露出来。我们并不专注于孤立的下一令牌、下一帧或下一动作预测，而是以下一状态预测建模为核心，提供一条统一的状态转换建模路径，用于理解、预测和作用于世界。Orca 通过两种互补范式进行学习：无意识学习从连续视频中捕获密集的自然状态转换，有意识学习通过语言描述的事件和 VQA 监督建模稀疏的有意义状态转换。在预训练方面，我们构建了大规模世界学习清单数据，包含 12.5 万小时视频数据和 1.6 亿条事件标注。预训练后，Orca 学习到一个统一的世界潜在空间。为检验所学潜在表示是否支持下游任务，我们通过三种代表性的下游读取进行评估：文本生成、图像预测和具身动作生成。Orca 的主干网络被冻结，仅训练轻量级的模态特定解码器。实验表明该范式具有良好的可扩展性，并验证了更强的世界潜在表示能够带来更优的下游读取性能。Orca 超越了同等规模的特化基线。这些结果表明，Orca 作为一个通用世界基础模型，为理解、预测和作用于世界提供了一条有前景的路径。最后，我们讨论了当前的局限性，旨在为社区提供有益的见解和启发。

查看 arXiv 页面 (https://arxiv.org/abs/2606.30534) 查看 PDF (https://arxiv.org/pdf/2606.30534) 项目页面 (https://orca-wm.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30534)

在你的 agent 中获取此论文：

hf papers read 2606.30534

没有最新的 CLI？ curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。

引用该论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。

引用该论文的 Spaces 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。

包含该论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到一个收藏集中即可从此页面链接。

Orca：世界尽在你的脑海中

论文详情页 - Orca: The World is in Your Mind

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏集 0

相似文章

@_akhaliq: Orca 世界在你心中

@AdinaYakup: BAAI 刚刚在 @HuggingPapers 上发布了 Orca 论文：一种多模态潜在世界模型，它首先学习世界本身，……

@LiorOnAI: 大多数世界模型预测接下来会发生什么。Sora预测像素，JEPA压缩观察结果。NEO试图弄清楚…

OPINE-World: 使用本体错误优先的交互式探索进行程序化世界建模

LatentOmni：通过统一视听潜在推理重新思考全模态理解

提交意见反馈