OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

思维链（Chain-of-Thought, CoT）推理已成为基于 VLA 的自动驾驶轨迹预测的强大驱动力，然而其自回归特性带来的延迟开销令实时部署难以承受。隐式 CoT 方法试图通过将推理压缩为连续隐状态来弥合这一差距，却始终逊于显式方法。我们认为，这归因于纯语言隐式表征仅压缩了世界的符号抽象，而非实际主导驾驶的因果动态。因此，我们提出了 OneVL（One-step latent reasoning and planning with Vision-Language explanations），一个统一的 VLA 与 World Model 框架，其通过紧凑的隐式令牌（latent tokens）进行推理，并由双辅助解码器监督。除了重建文本 CoT 的语言解码器，我们还引入了预测未来帧令牌的视觉世界模型解码器，迫使隐空间内化道路几何、智能体运动及环境变化的因果动态。三阶段训练流程渐进地将这些隐式表征与轨迹、语言及视觉目标对齐，确保稳定的联合优化。在推理阶段，辅助解码器被丢弃，所有隐式令牌在单次并行前向传播中完成预填充，速度媲美仅输出答案的预测。在四项基准测试上，OneVL 成为首个超越显式 CoT 的隐式 CoT 方法，在仅输出答案的延迟下达到了最先进的准确率，并直接证明：在语言与世界模型双重监督的引导下，更紧致的压缩能够产生比冗长逐令牌推理更具泛化性的表征。项目页面：https://xiaomi-embodied-intelligence.github.io/OneVL

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划

来源：https://huggingface.co/papers/2604.18486 发布于 4 月 20 日

今日 #1 论文 (https://huggingface.co/papers/date/2026-04-21) 作者：

摘要

OneVL 提出了一个统一的 vision-language-action（视觉-语言-动作）框架，通过整合语言与视觉世界模型（World Model）监督，提升自动驾驶中的隐式思维链推理能力，实现更快速、更准确的轨迹预测。

思维链（Chain-of-Thought）（CoT）推理已成为基于 VLA 的自动驾驶中轨迹预测的重要驱动力，但其自回归特性带来的延迟成本使其难以部署于实时场景。隐式 CoT（Latent CoT）方法尝试通过将推理压缩为连续隐藏状态来弥合这一差距，但其效果始终不及显式方法。我们认为，这归因于纯语言隐式表征仅压缩了世界的符号抽象，而非实际支配驾驶的因果动态。为此，我们提出了 OneVL（One-step latent reasoning and planning with Vision-Language explanations），一个统一的 VLA 与世界模型（World Model）框架，该框架通过紧凑的隐式 token（latent tokens）进行推理，并由双辅助解码器（auxiliary decoders）监督。在重构文本 CoT 的语言解码器（language decoder）之外，我们引入了一个视觉世界模型解码器（visual world model decoder）来预测未来帧 token，迫使隐式空间内化道路几何、智能体运动及环境变化的因果动态。三阶段训练流程（three-stage training pipeline）逐步将这些隐式表征与轨迹、语言及视觉目标对齐，确保稳定的联合优化。在推理阶段，辅助解码器（auxiliary decoders）被丢弃，所有隐式 token（latent tokens）在单次并行传播（parallel pass）中预填充，速度与仅输出答案的预测相当。在四个基准测试中，OneVL 成为首个超越显式 CoT 的隐式 CoT（latent CoT）方法，在仅输出答案的延迟下达到最先进的准确率，并直接证明：在语言与世界模型双重监督引导下的更紧压缩，能够产生比冗长的逐 token 推理更具泛化性的表征。项目页面：https://xiaomi-embodied-intelligence.github.io/OneVL

查看 arXiv 页面 (https://arxiv.org/abs/2604.18486)查看 PDF (https://arxiv.org/pdf/2604.18486)项目页面 (https://xiaomi-embodied-intelligence.github.io/OneVL/)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.18486)

在你的 agent 中获取这篇论文：

hf papers read 2604\.18486

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型引用该论文

在模型的 README.md 中引用 arxiv.org/abs/2604.18486，即可从此页面建立链接。

引用该论文的数据集0

没有数据集引用该论文

在数据集的 README.md 中引用 arxiv.org/abs/2604.18486，即可从此页面建立链接。

引用该论文的 Spaces0

没有 Space 引用该论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.18486，即可从此页面建立链接。

包含该论文的合集0

没有合集包含该论文

将此论文添加到一个合集 (https://huggingface.co/new-collection)，即可从此页面建立链接。

OneVL：基于视觉语言解释的单步隐式推理与规划

论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Spaces0

包含该论文的合集0

相似文章

规划复杂视觉任务的更优方法

HiVLA: 一种以视觉接地为中心的分层具身操作系统

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

@zhijianliu_: 推理 VLA 会思考，只是不够快——直到现在。推出 FlashDrive：RTX PRO 6000 上 716 ms → 159 ms……

EasyVideoR1：让视频理解的强化学习更简单

提交意见反馈