ATLAS：智能体还是隐式视觉推理？一个词足矣

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

ATLAS提出了一种视觉推理框架，该框架通过功能标记将智能体操作和隐式表示相结合，实现了通过下一个标记预测和强化学习进行高效训练，同时避免了中间图像的生成。

视觉推理通常与中间视觉状态交织在一起，已成为该领域的一个有前景的方向。一种直接的方法是在推理过程中通过统一模型直接生成图像，但这计算成本高昂且架构复杂。近期的替代方案包括通过代码或工具调用的智能体推理，以及使用可学习隐藏嵌入的隐式推理。然而，智能体方法因外部执行带来上下文切换延迟，而隐式方法则缺乏任务泛化能力，且难以通过自回归并行化进行训练。为了结合它们的优势并减轻其局限性，我们提出了ATLAS，该框架中一个单一的离散“词”（称为功能标记）同时充当智能体操作和隐式视觉推理单元。每个功能标记都与一个内化视觉操作相关联，但不需要视觉监督，并且仍然是分词器词汇表中的标准标记，可以通过下一个标记预测生成。这种设计避免了冗长的中间视觉内容生成，同时保持了与标准可扩展SFT和RL训练的兼容性，无需架构或方法上的修改。为了进一步解决RL中功能标记的稀疏性问题，我们引入了Latent-Anchored GRPO (LA-GRPO)，该方法通过静态加权辅助目标锚定功能标记，提供更强的梯度更新，从而稳定训练。大量实验和分析表明，ATLAS在具有挑战性的基准测试中实现了卓越的性能，同时保持了清晰的可解释性。我们希望ATLAS能为未来的视觉推理研究提供一种新的范式，激发更多探索。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - ATLAS: 智能体还是潜在视觉推理？一个词就够了

来源：https://huggingface.co/papers/2605.15198

摘要

ATLAS 提出了一种视觉推理框架，通过功能令牌将智能体操作与潜在表示相结合，实现了高效训练，并在复杂基准上取得了更优的性能。

视觉推理通常与中间视觉状态交错进行，已成为该领域一个颇具前景的方向。一种直接的方法是借助统一模型，在推理过程中直接生成图像，但这在计算上代价高昂，架构上也并非易事。近期的替代方案包括通过代码或工具调用实现的智能体推理，以及使用可学习隐藏嵌入的潜在推理。然而，智能体方法因外部执行而带来上下文切换延迟，而潜在方法则缺乏任务泛化能力，且难以通过自回归并行化进行训练。为了融合两者优势并克服其局限，我们提出了 ATLAS 框架。在该框架中，一个被称为“功能令牌”的离散“词”既作为智能体操作，又作为潜在视觉推理单元。每个功能令牌关联一个内部化的视觉操作，但无需视觉监督，且仍是分词器词汇表中的标准令牌，可通过下一个令牌预测生成。这种设计避免了生成冗长的中间视觉内容，同时保持了与标准可扩展 SFT 和 RL 训练的兼容性，无需架构或方法上的修改。为了进一步解决强化学习中功能令牌稀疏的问题，我们引入了潜在锚定 GRPO（LA-GRPO），该方法通过静态加权的辅助目标锚定功能令牌，从而稳定训练并提供更强的梯度更新。大量的实验与分析表明，ATLAS 在具有挑战性的基准上取得了卓越性能，同时保持了清晰的可解释性。我们希望 ATLAS 能为未来的视觉推理研究提供一种新的范式。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15198)
查看 PDF (https://arxiv.org/pdf/2605.15198)
项目页面 (https://atlas-oneword.github.io/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15198)

在您的智能体中获取这篇论文：

hf papers read 2605.15198

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。

包含此论文的收藏 0

没有包含此论文的收藏

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以在此页面进行链接。

ATLAS：智能体还是隐式视觉推理？一个词足矣

论文页面 - ATLAS: 智能体还是潜在视觉推理？一个词就够了

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

自适应潜在智能体推理

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

检索、整合与综合：空间-语义接地潜层视觉推理

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

AtlasVA：面向无教师VLM Agent的自进化视觉技能记忆

提交意见反馈