OneVL:基于视觉语言解释的单步隐式推理与规划
摘要
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划
来源:https://huggingface.co/papers/2604.18486 发布于 4 月 20 日
今日 #1 论文 (https://huggingface.co/papers/date/2026-04-21) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
OneVL 提出了一个统一的 vision-language-action(视觉-语言-动作)框架,通过整合语言与视觉世界模型(World Model)监督,提升自动驾驶中的隐式思维链推理能力,实现更快速、更准确的轨迹预测。
思维链(Chain-of-Thought)(CoT)推理已成为基于 VLA 的自动驾驶中轨迹预测的重要驱动力,但其自回归特性带来的延迟成本使其难以部署于实时场景。隐式 CoT(Latent CoT)方法尝试通过将推理压缩为连续隐藏状态来弥合这一差距,但其效果始终不及显式方法。我们认为,这归因于纯语言隐式表征仅压缩了世界的符号抽象,而非实际支配驾驶的因果动态。为此,我们提出了 OneVL(One-step latent reasoning and planning with Vision-Language explanations),一个统一的 VLA 与世界模型(World Model)框架,该框架通过紧凑的隐式 token(latent tokens)进行推理,并由双辅助解码器(auxiliary decoders)监督。在重构文本 CoT 的语言解码器(language decoder)之外,我们引入了一个视觉世界模型解码器(visual world model decoder)来预测未来帧 token,迫使隐式空间内化道路几何、智能体运动及环境变化的因果动态。三阶段训练流程(three-stage training pipeline)逐步将这些隐式表征与轨迹、语言及视觉目标对齐,确保稳定的联合优化。在推理阶段,辅助解码器(auxiliary decoders)被丢弃,所有隐式 token(latent tokens)在单次并行传播(parallel pass)中预填充,速度与仅输出答案的预测相当。在四个基准测试中,OneVL 成为首个超越显式 CoT 的隐式 CoT(latent CoT)方法,在仅输出答案的延迟下达到最先进的准确率,并直接证明:在语言与世界模型双重监督引导下的更紧压缩,能够产生比冗长的逐 token 推理更具泛化性的表征。项目页面:https://xiaomi-embodied-intelligence.github.io/OneVL
查看 arXiv 页面 (https://arxiv.org/abs/2604.18486)查看 PDF (https://arxiv.org/pdf/2604.18486)项目页面 (https://xiaomi-embodied-intelligence.github.io/OneVL/)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.18486)
在你的 agent 中获取这篇论文:
hf papers read 2604\.18486
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型引用该论文
在模型的 README.md 中引用 arxiv.org/abs/2604.18486,即可从此页面建立链接。
引用该论文的数据集0
没有数据集引用该论文
在数据集的 README.md 中引用 arxiv.org/abs/2604.18486,即可从此页面建立链接。
引用该论文的 Spaces0
没有 Space 引用该论文
在 Space 的 README.md 中引用 arxiv.org/abs/2604.18486,即可从此页面建立链接。
包含该论文的合集0
没有合集包含该论文
将此论文添加到一个合集 (https://huggingface.co/new-collection),即可从此页面建立链接。
相似文章
规划复杂视觉任务的更优方法
MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
@zhijianliu_: 推理 VLA 会思考,只是不够快——直到现在。推出 FlashDrive:RTX PRO 6000 上 716 ms → 159 ms……
FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms,最高加速 5.7 倍,零精度损失,让实时自主应用成为可能。
EasyVideoR1:让视频理解的强化学习更简单
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers