视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

视觉思考-视觉-语言-行动策略（VisualThink-VLA）引入了一种用于视觉-语言-行动策略的视觉中间推理框架，该框架保留了空间精度，并相比基于文本的推理显著降低了延迟，在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

近期研究开始为视觉-语言-行动（VLA）策略配备显式的中间推理。然而，在具身控制中，文本思维链并不适用：不相关或弱文本信息可能干扰动作预测，而自回归文本解码为实时闭环执行增加了过多延迟。我们提出了VISUALTHINK-VLA，一个用于准确、低延迟VLA策略的视觉中间推理框架。我们的引导原则是通过有效的视觉思考来引导动作：VISUALTHINK-VLA通过一个紧凑的视觉证据接口引导动作预测，该接口保留了空间精度，同时避免了解码开销。此外，为了进一步提升性能和效率，VISUALTHINK-VLA采用了定制的选择性路由机制来学习视觉证据令牌，实现低延迟推理，同时保持高容量专业化。我们还引入了VisualEvidence-Kit，这是一个以VisualEvidence-Agent为中心的监督与审计资源，该智能体构建了754.7k条VLA指令的VisualEvidence-Set，用于路由监督和反事实忠诚度测试。在多个基准测试和真实机器人评估中，VISUALTHINK-VLA在大多数基准测试上实现了最高成功率，同时将推理增强基线的多秒延迟降低到亚秒级别。例如，在BridgeData V2上，它将步骤延迟从ECoT的8.377秒降低到0.367秒，实现了22.8倍的加速。

查看原文

查看缓存全文

缓存时间: 2026/06/01 15:20

论文页面 - VisualThink-VLA：通过视觉中间推理实现高效低延迟的视觉-语言-动作策略

来源：https://huggingface.co/papers/2605.30011 作者：，，，，，，，，，，

摘要

VisualThinking-VLA 通过视觉推理实现了快速、准确的视觉-语言-动作策略，在保持空间精度的同时，相比基于文本的方法降低了延迟。

近期研究开始为视觉-语言-动作（VLA）策略配备显式的中间推理能力。然而，在具身控制任务中，文本式思维链并不适用：无关或弱文本信息会干扰动作预测，而自回归文本解码则给实时闭环执行带来了过多延迟。我们提出了 VISUALTHINK-VLA，一个用于实现准确、低延迟 VLA 策略的视觉中间推理框架。我们的引导式设计理念是用有效的视觉思维来指导动作：VISUALTHINK-VLA 通过一个紧凑的视觉证据接口来引导动作预测，该接口在保留空间精度的同时避免了解码开销。此外，为了进一步提升性能和效率，VISUALTHINK-VLA 采用了一种定制的选择性路由机制来学习视觉证据 token，从而实现低延迟推理，同时保持高容量的专有化能力。我们还引入了 VisualEvidence-Kit，这是一个以 VisualEvidence-Agent 为核心的监督与审计资源，该 Agent 构建了一个包含 754.7k VLA 指令的 VisualEvidence-Set，用于路由监督和反事实忠实度测试。在多个基准测试和真实机器人评估中，VISUALTHINK-VLA 在大多数基准测试上取得了最高的成功率，同时将推理增强基线的数秒级延迟降低到亚秒级。例如，在 BridgeData V2 上，它将步骤延迟从 ECoT 的 8.377 秒降低到 0.367 秒，实现了 22.8 倍的加速。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30011)查看 PDF (https://arxiv.org/pdf/2605.30011)GitHub15 (https://github.com/DCDmllm/VisualThink-VLA)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30011)

在您的代理中获取此论文：

hf papers read 2605.30011

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30011 以从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30011 以从本页链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30011 以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

论文页面 - VisualThink-VLA：通过视觉中间推理实现高效低延迟的视觉-语言-动作策略

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

OneVL：基于视觉语言解释的单步隐式推理与规划

EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略

IntentVLA: 针对混叠机器人操作的短期意图建模

TBD-VLA: 时序块扩散视觉语言动作模型

Qwen-VLA：统一跨任务、环境与机器人具身形态的视觉-语言-动作建模

提交意见反馈