Orca:世界尽在你的脑海中
摘要
本文介绍了Orca,一个世界基础模型,它通过下一状态预测从多模态数据中学习统一的潜在空间,在文本生成、图像预测和具身动作生成等下游任务上优于专门的基线模型。
查看缓存全文
缓存时间: 2026/06/30 03:33
论文详情页 - Orca: The World is in Your Mind
来源:https://huggingface.co/papers/2606.30534 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Orca 通过使用多模态数据进行下一状态预测建模,构建了一个统一的世界潜在空间,并在下游任务中展现出优于特定基线的性能。
我们介绍 Orca,这是一个通用世界基础模型的初始实例化。Orca 从多模态世界信号中学习一个统一的世界潜在空间,并通过多模态读取接口将其暴露出来。我们并不专注于孤立的下一令牌、下一帧或下一动作预测,而是以下一状态预测建模为核心,提供一条统一的状态转换建模路径,用于理解、预测和作用于世界。Orca 通过两种互补范式进行学习:无意识学习从连续视频中捕获密集的自然状态转换,有意识学习通过语言描述的事件和 VQA 监督建模稀疏的有意义状态转换。在预训练方面,我们构建了大规模世界学习清单数据,包含 12.5 万小时视频数据和 1.6 亿条事件标注。预训练后,Orca 学习到一个统一的世界潜在空间。为检验所学潜在表示是否支持下游任务,我们通过三种代表性的下游读取进行评估:文本生成、图像预测和具身动作生成。Orca 的主干网络被冻结,仅训练轻量级的模态特定解码器。实验表明该范式具有良好的可扩展性,并验证了更强的世界潜在表示能够带来更优的下游读取性能。Orca 超越了同等规模的特化基线。这些结果表明,Orca 作为一个通用世界基础模型,为理解、预测和作用于世界提供了一条有前景的路径。最后,我们讨论了当前的局限性,旨在为社区提供有益的见解和启发。
查看 arXiv 页面 (https://arxiv.org/abs/2606.30534) 查看 PDF (https://arxiv.org/pdf/2606.30534) 项目页面 (https://orca-wm.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30534)
在你的 agent 中获取此论文:
hf papers read 2606.30534
没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。
引用该论文的数据集 0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。
引用该论文的 Spaces 0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。
包含该论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到一个收藏集中即可从此页面链接。
相似文章
@_akhaliq: Orca 世界在你心中
Orca 是一篇关于语言模型的研究论文,声称该模型通过自身的推理来理解世界。
@AdinaYakup: BAAI 刚刚在 @HuggingPapers 上发布了 Orca 论文:一种多模态潜在世界模型,它首先学习世界本身,……
BAAI 发布了 Orca 论文,描述了一种多模态潜在世界模型,该模型首先学习统一的世界表示,然后使用冻结的主干网络和微小的解码器解码为文本、图像或动作,权重即将发布。
@LiorOnAI: 大多数世界模型预测接下来会发生什么。Sora预测像素,JEPA压缩观察结果。NEO试图弄清楚…
NEO是一种新型世界模型,它能够从原始观察中自行发现可重用的解释构建块,无需监督或语言,被选为ICML 2026的口头报告。
OPINE-World: 使用本体错误优先的交互式探索进行程序化世界建模
OPINE-World 引入了一个 LLM 智能体,通过交互在线学习以对象为中心的程序化世界模型,采用本体错误优先的探索和协作的假设-测试智能体,在 ARC-AGI-3 上取得了强劲的结果。
LatentOmni:通过统一视听潜在推理重新思考全模态理解
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。