视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
摘要
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
查看缓存全文
缓存时间: 2026/06/01 15:20
论文页面 - VisualThink-VLA:通过视觉中间推理实现高效低延迟的视觉-语言-动作策略
来源:https://huggingface.co/papers/2605.30011 作者: , , , , , , , , , ,
摘要
VisualThinking-VLA 通过视觉推理实现了快速、准确的视觉-语言-动作策略,在保持空间精度的同时,相比基于文本的方法降低了延迟。
近期研究开始为视觉-语言-动作(VLA)策略配备显式的中间推理能力。然而,在具身控制任务中,文本式思维链并不适用:无关或弱文本信息会干扰动作预测,而自回归文本解码则给实时闭环执行带来了过多延迟。我们提出了 VISUALTHINK-VLA,一个用于实现准确、低延迟 VLA 策略的视觉中间推理框架。我们的引导式设计理念是用有效的视觉思维来指导动作:VISUALTHINK-VLA 通过一个紧凑的视觉证据接口来引导动作预测,该接口在保留空间精度的同时避免了解码开销。此外,为了进一步提升性能和效率,VISUALTHINK-VLA 采用了一种定制的选择性路由机制来学习视觉证据 token,从而实现低延迟推理,同时保持高容量的专有化能力。我们还引入了 VisualEvidence-Kit,这是一个以 VisualEvidence-Agent 为核心的监督与审计资源,该 Agent 构建了一个包含 754.7k VLA 指令的 VisualEvidence-Set,用于路由监督和反事实忠实度测试。在多个基准测试和真实机器人评估中,VISUALTHINK-VLA 在大多数基准测试上取得了最高的成功率,同时将推理增强基线的数秒级延迟降低到亚秒级。例如,在 BridgeData V2 上,它将步骤延迟从 ECoT 的 8.377 秒降低到 0.367 秒,实现了 22.8 倍的加速。
查看 arXiv 页面 (https://arxiv.org/abs/2605.30011)查看 PDF (https://arxiv.org/pdf/2605.30011)GitHub15 (https://github.com/DCDmllm/VisualThink-VLA)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30011)
在您的代理中获取此论文:
hf papers read 2605.30011
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.30011 以从本页链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.30011 以从本页链接。
引用此论文的 Space0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.30011 以从本页链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v
IntentVLA: 针对混叠机器人操作的短期意图建模
IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。