OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers 论文

摘要

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v

思维链(Chain-of-Thought, CoT)推理已成为基于 VLA 的自动驾驶轨迹预测的强大驱动力,然而其自回归特性带来的延迟开销令实时部署难以承受。隐式 CoT 方法试图通过将推理压缩为连续隐状态来弥合这一差距,却始终逊于显式方法。我们认为,这归因于纯语言隐式表征仅压缩了世界的符号抽象,而非实际主导驾驶的因果动态。因此,我们提出了 OneVL(One-step latent reasoning and planning with Vision-Language explanations),一个统一的 VLA 与 World Model 框架,其通过紧凑的隐式令牌(latent tokens)进行推理,并由双辅助解码器监督。除了重建文本 CoT 的语言解码器,我们还引入了预测未来帧令牌的视觉世界模型解码器,迫使隐空间内化道路几何、智能体运动及环境变化的因果动态。三阶段训练流程渐进地将这些隐式表征与轨迹、语言及视觉目标对齐,确保稳定的联合优化。在推理阶段,辅助解码器被丢弃,所有隐式令牌在单次并行前向传播中完成预填充,速度媲美仅输出答案的预测。在四项基准测试上,OneVL 成为首个超越显式 CoT 的隐式 CoT 方法,在仅输出答案的延迟下达到了最先进的准确率,并直接证明:在语言与世界模型双重监督的引导下,更紧致的压缩能够产生比冗长逐令牌推理更具泛化性的表征。项目页面:https://xiaomi-embodied-intelligence.github.io/OneVL
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划

来源:https://huggingface.co/papers/2604.18486 发布于 4 月 20 日

今日 #1 论文 (https://huggingface.co/papers/date/2026-04-21) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

OneVL 提出了一个统一的 vision-language-action(视觉-语言-动作)框架,通过整合语言与视觉世界模型(World Model)监督,提升自动驾驶中的隐式思维链推理能力,实现更快速、更准确的轨迹预测。

思维链(Chain-of-Thought)(CoT)推理已成为基于 VLA 的自动驾驶中轨迹预测的重要驱动力,但其自回归特性带来的延迟成本使其难以部署于实时场景。隐式 CoT(Latent CoT)方法尝试通过将推理压缩为连续隐藏状态来弥合这一差距,但其效果始终不及显式方法。我们认为,这归因于纯语言隐式表征仅压缩了世界的符号抽象,而非实际支配驾驶的因果动态。为此,我们提出了 OneVL(One-step latent reasoning and planning with Vision-Language explanations),一个统一的 VLA 与世界模型(World Model)框架,该框架通过紧凑的隐式 token(latent tokens)进行推理,并由双辅助解码器(auxiliary decoders)监督。在重构文本 CoT 的语言解码器(language decoder)之外,我们引入了一个视觉世界模型解码器(visual world model decoder)来预测未来帧 token,迫使隐式空间内化道路几何、智能体运动及环境变化的因果动态。三阶段训练流程(three-stage training pipeline)逐步将这些隐式表征与轨迹、语言及视觉目标对齐,确保稳定的联合优化。在推理阶段,辅助解码器(auxiliary decoders)被丢弃,所有隐式 token(latent tokens)在单次并行传播(parallel pass)中预填充,速度与仅输出答案的预测相当。在四个基准测试中,OneVL 成为首个超越显式 CoT 的隐式 CoT(latent CoT)方法,在仅输出答案的延迟下达到最先进的准确率,并直接证明:在语言与世界模型双重监督引导下的更紧压缩,能够产生比冗长的逐 token 推理更具泛化性的表征。项目页面:https://xiaomi-embodied-intelligence.github.io/OneVL

查看 arXiv 页面 (https://arxiv.org/abs/2604.18486)查看 PDF (https://arxiv.org/pdf/2604.18486)项目页面 (https://xiaomi-embodied-intelligence.github.io/OneVL/)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.18486)

在你的 agent 中获取这篇论文:

hf papers read 2604\.18486

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型引用该论文

在模型的 README.md 中引用 arxiv.org/abs/2604.18486,即可从此页面建立链接。

引用该论文的数据集0

没有数据集引用该论文

在数据集的 README.md 中引用 arxiv.org/abs/2604.18486,即可从此页面建立链接。

引用该论文的 Spaces0

没有 Space 引用该论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.18486,即可从此页面建立链接。

包含该论文的合集0

没有合集包含该论文

将此论文添加到一个合集 (https://huggingface.co/new-collection),即可从此页面建立链接。

相似文章

规划复杂视觉任务的更优方法

MIT News — Artificial Intelligence

MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

EasyVideoR1:让视频理解的强化学习更简单

Hugging Face Daily Papers

# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers