ATLAS:智能体还是隐式视觉推理?一个词足矣
摘要
ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - ATLAS: 智能体还是潜在视觉推理?一个词就够了
来源:https://huggingface.co/papers/2605.15198
摘要
ATLAS 提出了一种视觉推理框架,通过功能令牌将智能体操作与潜在表示相结合,实现了高效训练,并在复杂基准上取得了更优的性能。
视觉推理通常与中间视觉状态交错进行,已成为该领域一个颇具前景的方向。一种直接的方法是借助统一模型,在推理过程中直接生成图像,但这在计算上代价高昂,架构上也并非易事。近期的替代方案包括通过代码或工具调用实现的智能体推理,以及使用可学习隐藏嵌入的潜在推理。然而,智能体方法因外部执行而带来上下文切换延迟,而潜在方法则缺乏任务泛化能力,且难以通过自回归并行化进行训练。为了融合两者优势并克服其局限,我们提出了 ATLAS 框架。在该框架中,一个被称为“功能令牌”的离散“词”既作为智能体操作,又作为潜在视觉推理单元。每个功能令牌关联一个内部化的视觉操作,但无需视觉监督,且仍是分词器词汇表中的标准令牌,可通过下一个令牌预测生成。这种设计避免了生成冗长的中间视觉内容,同时保持了与标准可扩展 SFT 和 RL 训练的兼容性,无需架构或方法上的修改。为了进一步解决强化学习中功能令牌稀疏的问题,我们引入了潜在锚定 GRPO(LA-GRPO),该方法通过静态加权的辅助目标锚定功能令牌,从而稳定训练并提供更强的梯度更新。大量的实验与分析表明,ATLAS 在具有挑战性的基准上取得了卓越性能,同时保持了清晰的可解释性。我们希望 ATLAS 能为未来的视觉推理研究提供一种新的范式。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15198)
查看 PDF (https://arxiv.org/pdf/2605.15198)
项目页面 (https://atlas-oneword.github.io/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15198)
在您的智能体中获取这篇论文:
hf papers read 2605.15198
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。
引用此论文的数据集 0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。
引用此论文的 Spaces 0
没有 Space 链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15198 以在此页面进行链接。
包含此论文的收藏 0
没有包含此论文的收藏
请将此论文添加到收藏 (https://huggingface.co/new-collection) 以在此页面进行链接。
相似文章
自适应潜在智能体推理
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。
LatentRAG:用于高效智能体 RAG 的潜在推理与检索
LatentRAG 是一个新颖的框架,将智能体 RAG 的推理与检索过程转移至连续的潜在空间,在保持与显式方法相当的性能的同时,将推理延迟降低了约 90%。
检索、整合与综合:空间-语义接地潜层视觉推理
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
AtlasVA:面向无教师VLM Agent的自进化视觉技能记忆
AtlasVA是一个面向视觉语言模型Agent的无教师视觉技能记忆框架,它利用空间热图、视觉示例和符号文本技能来改善长时域任务中的空间决策,在多个基准测试中优于基线方法。