Orca:世界尽在你的脑海中

Hugging Face Daily Papers 论文

摘要

本文介绍了Orca,一个世界基础模型,它通过下一状态预测从多模态数据中学习统一的潜在空间,在文本生成、图像预测和具身动作生成等下游任务上优于专门的基线模型。

我们介绍了Orca,这是一个通用世界基础模型的初步实例。Orca从多模态世界信号中学习统一的世界潜在空间,并通过多模态读出接口将其暴露出来。我们并非优化孤立的下一词元、下一帧或下一动作预测,而是以下一状态预测建模为核心,提供了一种统一的状态转换建模方法,以理解、预测和作用于世界。Orca通过两种互补范式学习:无意识学习从连续视频中捕获密集的自然状态转换,而有意识学习通过语言描述的事件和VQA监督来建模稀疏的有意义状态转换。在预训练中,我们构建了一个大规模的世界学习库存数据,包括125,000小时的视频数据和1.6亿个事件注释。预训练后,Orca学习了一个统一的世界潜在空间。为了检查所学潜在空间是否支持下游任务,我们通过三种代表性的下游读出方式进行评估:文本生成、图像预测和具身动作生成。Orca的骨干网络被冻结,只有轻量级的模态特定解码器是可训练的。实验证明了所提范式的可扩展性,并验证了更强的世界潜在空间能实现更强的下游读出。Orca在性能上超越了规模相当的专门基线模型。这些结果表明,Orca作为一个通用世界基础模型,为理解、预测和作用于世界提供了一种有前景的方法。最后,我们讨论了当前的局限性,旨在为社区提供有用的见解和启发。
查看原文
查看缓存全文

缓存时间: 2026/06/30 03:33

论文详情页 - Orca: The World is in Your Mind

来源:https://huggingface.co/papers/2606.30534 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

Orca 通过使用多模态数据进行下一状态预测建模,构建了一个统一的世界潜在空间,并在下游任务中展现出优于特定基线的性能。

我们介绍 Orca,这是一个通用世界基础模型的初始实例化。Orca 从多模态世界信号中学习一个统一的世界潜在空间,并通过多模态读取接口将其暴露出来。我们并不专注于孤立的下一令牌、下一帧或下一动作预测,而是以下一状态预测建模为核心,提供一条统一的状态转换建模路径,用于理解、预测和作用于世界。Orca 通过两种互补范式进行学习:无意识学习从连续视频中捕获密集的自然状态转换,有意识学习通过语言描述的事件和 VQA 监督建模稀疏的有意义状态转换。在预训练方面,我们构建了大规模世界学习清单数据,包含 12.5 万小时视频数据和 1.6 亿条事件标注。预训练后,Orca 学习到一个统一的世界潜在空间。为检验所学潜在表示是否支持下游任务,我们通过三种代表性的下游读取进行评估:文本生成、图像预测和具身动作生成。Orca 的主干网络被冻结,仅训练轻量级的模态特定解码器。实验表明该范式具有良好的可扩展性,并验证了更强的世界潜在表示能够带来更优的下游读取性能。Orca 超越了同等规模的特化基线。这些结果表明,Orca 作为一个通用世界基础模型,为理解、预测和作用于世界提供了一条有前景的路径。最后,我们讨论了当前的局限性,旨在为社区提供有益的见解和启发。

查看 arXiv 页面 (https://arxiv.org/abs/2606.30534) 查看 PDF (https://arxiv.org/pdf/2606.30534) 项目页面 (https://orca-wm.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30534)

在你的 agent 中获取此论文:

hf papers read 2606.30534

没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。

引用该论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。

引用该论文的 Spaces 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.30534 即可从此页面链接。

包含该论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到一个收藏集中即可从此页面链接。

相似文章