ATLAS:智能体还是隐式视觉推理?一个词足矣

Hugging Face Daily Papers 论文

摘要

ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。

视觉推理通常与中间视觉状态交织在一起,已成为该领域的一个有前景的方向。一种直接的方法是在推理过程中通过统一模型直接生成图像,但这计算成本高昂且架构复杂。近期的替代方案包括通过代码或工具调用的智能体推理,以及使用可学习隐藏嵌入的隐式推理。然而,智能体方法因外部执行带来上下文切换延迟,而隐式方法则缺乏任务泛化能力,且难以通过自回归并行化进行训练。为了结合它们的优势并减轻其局限性,我们提出了ATLAS,该框架中一个单一的离散“词”(称为功能标记)同时充当智能体操作和隐式视觉推理单元。每个功能标记都与一个内化视觉操作相关联,但不需要视觉监督,并且仍然是分词器词汇表中的标准标记,可以通过下一个标记预测生成。这种设计避免了冗长的中间视觉内容生成,同时保持了与标准可扩展SFT和RL训练的兼容性,无需架构或方法上的修改。为了进一步解决RL中功能标记的稀疏性问题,我们引入了Latent-Anchored GRPO (LA-GRPO),该方法通过静态加权辅助目标锚定功能标记,提供更强的梯度更新,从而稳定训练。大量实验和分析表明,ATLAS在具有挑战性的基准测试中实现了卓越的性能,同时保持了清晰的可解释性。我们希望ATLAS能为未来的视觉推理研究提供一种新的范式,激发更多探索。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - ATLAS: 智能体还是潜在视觉推理?一个词就够了

来源:https://huggingface.co/papers/2605.15198

摘要

ATLAS 提出了一种视觉推理框架,通过功能令牌将智能体操作与潜在表示相结合,实现了高效训练,并在复杂基准上取得了更优的性能。

视觉推理通常与中间视觉状态交错进行,已成为该领域一个颇具前景的方向。一种直接的方法是借助统一模型,在推理过程中直接生成图像,但这在计算上代价高昂,架构上也并非易事。近期的替代方案包括通过代码或工具调用实现的智能体推理,以及使用可学习隐藏嵌入的潜在推理。然而,智能体方法因外部执行而带来上下文切换延迟,而潜在方法则缺乏任务泛化能力,且难以通过自回归并行化进行训练。为了融合两者优势并克服其局限,我们提出了 ATLAS 框架。在该框架中,一个被称为“功能令牌”的离散“词”既作为智能体操作,又作为潜在视觉推理单元。每个功能令牌关联一个内部化的视觉操作,但无需视觉监督,且仍是分词器词汇表中的标准令牌,可通过下一个令牌预测生成。这种设计避免了生成冗长的中间视觉内容,同时保持了与标准可扩展 SFT 和 RL 训练的兼容性,无需架构或方法上的修改。为了进一步解决强化学习中功能令牌稀疏的问题,我们引入了潜在锚定 GRPO(LA-GRPO),该方法通过静态加权的辅助目标锚定功能令牌,从而稳定训练并提供更强的梯度更新。大量的实验与分析表明,ATLAS 在具有挑战性的基准上取得了卓越性能,同时保持了清晰的可解释性。我们希望 ATLAS 能为未来的视觉推理研究提供一种新的范式。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15198)
查看 PDF (https://arxiv.org/pdf/2605.15198)
项目页面 (https://atlas-oneword.github.io/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15198)

在您的智能体中获取这篇论文:

hf papers read 2605.15198

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。

包含此论文的收藏 0

没有包含此论文的收藏

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以在此页面进行链接。

相似文章

自适应潜在智能体推理

arXiv cs.CL

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

AtlasVA:面向无教师VLM Agent的自进化视觉技能记忆

Hugging Face Daily Papers

AtlasVA是一个面向视觉语言模型Agent的无教师视觉技能记忆框架,它利用空间热图、视觉示例和符号文本技能来改善长时域任务中的空间决策,在多个基准测试中优于基线方法。