Agentick:用于通用序贯决策智能体的统一基准
摘要
本文介绍了 Agentick,这是一个用于评估涵盖强化学习(RL)、大型语言模型(LLM)和视觉语言模型(VLM)范式的通用序贯决策智能体的统一基准测试。该基准提供了 37 个程序化生成的任务,并揭示目前尚无单一方法占据主导地位,突显了智能体自主性方面仍有巨大的提升空间。
arXiv:2605.06869v1 公告类型:新论文
摘要:人工智能智能体研究涵盖广泛领域:从从零开始学习的强化学习智能体,到利用预训练知识的基础模型智能体,然而目前尚无统一基准能够实现对这些方法的公平比较。我们提出了 Agentick,这是一个用于序贯决策智能体的基准测试,旨在在共同基础上评估强化学习、大型语言模型、视觉语言模型、混合智能体及人类智能体,并推动针对序贯决策根本挑战的研究。Agentick 提供了 37 个程序化生成的任务,涵盖六种能力类别、四个难度等级和五种观测模态,所有任务均通过单一的兼容 Gymnasium 的接口暴露。该基准测试附带编码 API、所有任务的先知参考策略、预建的监督微调(SFT)数据集、可组合的智能体框架以及实时排行榜。对 27 种配置和超过 90,000 集(episodes)的评估显示,没有单一方法占据主导地位:GPT-5 mini 以 0.309 的归一化先知分数在整体表现上领先,而近端策略优化(PPO)则在规划和多智能体任务中占据主导;推理框架使大型语言模型的性能提升了 3-10 倍;ASCII 观测始终优于自然语言观测。这些发现突显了所有智能体范式下仍存在的巨大改进空间。Agentick 基于能力分解和多模态设计,为迈向通用自主智能体提供了所需的实证基础设施,既作为评估框架,也作为基础模型在真正序贯环境中进行强化学习后训练的试验场。
查看缓存全文
缓存时间: 2026/05/11 07:08
# Agentick:通用序贯决策智能体的统一基准 来源: https://arxiv.org/html/2605.06869 ![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/banner_new.png) Roger Creus Castanyer![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/logo_mila.jpg)![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/logo_udem.jpg) Mila 魁北克人工智能研究所 蒙特利尔大学 &Pablo Samuel Castro∗![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/logo_mila.jpg)![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/logo_udem.jpg)![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/logo_deepmind.png) Mila 魁北克人工智能研究所 蒙特利尔大学 Google DeepMind &Glen Berseth∗![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/logo_mila.jpg)![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/logo_udem.jpg) Mila 魁北克人工智能研究所 蒙特利尔大学 ###### 摘要 人工智能智能体研究涵盖了一个广阔的光谱:从从头学习的强化学习(RL)智能体,到利用预训练知识的基础模型智能体,但尚无统一的基准能够对这些方法进行公平比较。我们提出了 Agentick,这是一个用于序贯决策智能体的基准测试,旨在为 RL、LLM、VLM、混合智能体及人类智能体提供共同的评估平台,并推动针对序贯决策根本挑战的研究。Agentick 提供了 37 个通过程序生成的任务,涵盖六种能力类别、四个难度级别和五种观察模态,均通过单一的兼容 Gymnasium 的接口暴露。该基准附带编程 API、所有任务的预言机参考策略、预构建的监督微调(SFT)数据集、可组合的智能体框架以及实时排行榜。一项涵盖 27 种配置和超过 90,000 个回合的评估显示,没有单一的方法占据主导地位:GPT-5 mini 以 0.309 的预言机归一化得分(oracle-normalized score)在总体表现上领先,而 PPO 在规划和多智能体任务中占据优势;推理框架使 LLM 的性能提高了 3–10 倍;ASCII 观察结果始终优于自然语言。这些发现凸显了所有智能体范式仍有巨大的改进空间。Agentick 的能力分解和多模态设计提供了推动通用自主智能体进展所需的实证基础设施,既作为评估框架,也作为基础模型在真正序贯环境中进行 RL 后训练的试验场。 ††脚注:∗同等指导。††脚注:通讯作者:[email protected]## 1![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/sprite_agent.png)引言 自主智能体(感知环境、对其推理并采取行动以实现目标的系统)的追求几十年来一直是人工智能研究的核心目标 (Sutton and Barto, 2018 (https://arxiv.org/html/2605.06869#bib.bib27))。当前智能体研究的格局涵盖了广泛范式的谱系。在一端,深度强化学习(RL)智能体通过与环境的交互从头学习:PPO (Schulman et al., 2017 (https://arxiv.org/html/2605.06869#bib.bib12))、DQN (Mnih et al., 2015 (https://arxiv.org/html/2605.06869#bib.bib13)) 和 SAC (Haarnoja et al., 2018 (https://arxiv.org/html/2605.06869#bib.bib14)) 在 Atari (Bellemare et al., 2013 (https://arxiv.org/html/2605.06869#bib.bib1))、连续控制 (Tassa et al., 2018 (https://arxiv.org/html/2605.06869#bib.bib2)) 和战略游戏 (Vinyals et al., 2019 (https://arxiv.org/html/2605.06869#bib.bib43)) 中实现了超人类的性能。在另一端,基础模型(FM)智能体,包括在互联网规模数据上预训练的大型语言模型(LLMs)和视觉-语言模型(VLMs),利用广泛的世界知识,通过提示工程 and 推理时缩放 (Yao et al., 2023 (https://arxiv.org/html/2605.06869#bib.bib17); Wang et al., 2023 (https://arxiv.org/html/2605.06869#bib.bib18); Ahn et al., 2022 (https://arxiv.org/html/2605.06869#bib.bib19)) 进行零样本决策。在这两个极端之间,存在着丰富的混合方法设计空间:FM 引导的奖励塑造 (Ma et al., 2023 (https://arxiv.org/html/2605.06869#bib.bib35); Klissarov et al., 2023 (https://arxiv.org/html/2605.06869#bib.bib37); Castanyer et al., 2025a (https://arxiv.org/html/2605.06869#bib.bib36))、基础模型的 RL 后训练 (Guo et al., 2025 (https://arxiv.org/html/2605.06869#bib.bib25)),以及基于 FM 的技能发现 (Klissarov et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib38)) 和课程生成 (Wang et al., 2023 (https://arxiv.org/html/2605.06869#bib.bib18))。 每种范式都做出了不同的权衡。RL 智能体学习细粒度的控制策略,但样本效率低、任务特定,且在大规模下优化不稳定 (Ceron et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib29); Castanyer et al., 2025b (https://arxiv.org/html/2605.06869#bib.bib30); Lyle et al., 2022 (https://arxiv.org/html/2605.06869#bib.bib32))。FM 智能体带来了丰富的先验和语义理解,但它们并非为控制而训练,在精确的、时间扩展的动作方面表现不佳 (Paglieri et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib9))。这提出了一个核心问题:构建完全 capable 的自主智能体需要多少交互学习与预训练知识的结合?回答这一问题需要能够在全范式谱系(从头开始的 RL、提示式基础模型以及中间的混合模型)上对同一任务中的智能体进行比较,而现有的基准无法做到这一点(第 2 节 (https://arxiv.org/html/2605.06869#S2))。 我们提出了 Agentick,这是一个从头设计旨在支持全智能体设计谱系公平评估的基准。设计由四个原则指导:(1)通过五种观察模态实现范式通用性,确保没有智能体类型处于不利地位;(2)在序贯决策的各种维度上进行能力分解;(3)训练优先设计,具有编程 API、预言机策略、预构建的微调数据集和可矢量化环境;(4)可控难度,每个任务有四个级别,并通过程序生成确保可重复性。Agentick 通过标准接口 (Towers et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib34)) 提供涵盖导航、规划、推理、记忆、泛化和多智能体协调的 37 个任务。 为了验证基准的判别力,我们评估了跨越范式谱系的七个智能体:三个前沿 LLM(GPT-5 mini, Gemini 3.1 Flash Lite, Claude Haiku 4.5),一个 RL 智能体(从头训练的 PPO),以及四个开权重的 LLM(Qwen3.5,参数分别为 0.8B、2B 和 4B,以及 Qwen3-4B)。出现了三个关键发现。首先,没有单一范式占据主导地位:GPT-5 mini 以 0.309 的预言机归一化得分(ONS)在总体表现上领先,但 PPO 在规划(0.402)和多智能体任务(0.432 ONS)中占据优势。其次,提示策略的重要性与模型规模相当:思维链推理框架使所有测试模型的 LLM 性能提高了 3–10 倍。第三,对于 LLM 智能体,ASCII 观察结果始终优于自然语言,这表明紧凑的、标记高效的表示更利于空间推理。这些发现唯有通过 Agentick 的多模态、能力分解评估框架才能独特地实现。 基准、代码、文档、预构建数据集和实时排行榜均公开可用(摘要上方的链接)。第 2 节 (https://arxiv.org/html/2605.06869#S2) 将 Agentick 与现有基准进行定位比较。第 3 节 (https://arxiv.org/html/2605.06869#S3) 描述了基准设计。第 4 节 (https://arxiv.org/html/2605.06869#S4) 展示了实验结果。第 5 节 (https://arxiv.org/html/2605.06869#S5) 讨论了未来方向和结论。 ## 2![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/sprite_npc.png)相关工作 智能体评估框架可以大致按其针对的范式进行分组。表 1 (https://arxiv.org/html/2605.06869#S2.T1) 提供了结构化的比较;我们在下面讨论每一组。 RL 基准。街机学习环境(ALE)(Bellemare et al., 2013 (https://arxiv.org/html/2605.06869#bib.bib1)) 通过带有像素观察的 Atari 2600 游戏确立了深度 RL 的主导评估范式,DeepMind 控制套件 (Tassa et al., 2018 (https://arxiv.org/html/2605.06869#bib.bib2)) 将其扩展到具有本体感觉和像素观察的连续控制。bsuite (Osband et al., 2020 (https://arxiv.org/html/2605.06869#bib.bib3)) 采取了诊断方法,设计了在故意简单的设置中隔离特定 RL 能力(如探索、信用分配、记忆和泛化)的实验。MiniGrid (Chevalier-Boisvert et al., 2023 (https://arxiv.org/html/2605.06869#bib.bib4)) 提供了一个用于目标导向任务的模块化网格世界框架。NetHack 学习环境 (Küttler et al., 2020 (https://arxiv.org/html/2605.06869#bib.bib51)) 暴露了一个具有极端部分可观察性和长视野的程序生成的 Roguelike 游戏,代表了最具挑战性的单环境 RL 基准之一,而 MiniHack (Samvelyan et al., 2021 (https://arxiv.org/html/2605.06869#bib.bib5)) 在此基础上构建,使用灵活的领域特定语言来构建多样化的兼容 Gymnasium 的 RL 任务。Crafter (Hafner, 2022 (https://arxiv.org/html/2605.06869#bib.bib6)) 及其 JAX 加速扩展 Craftax (Matthews et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib50)) 提供了单一的程序生成生存游戏,测试了广泛的能力谱系。Procgen (Cobbe et al., 2020 (https://arxiv.org/html/2605.06869#bib.bib7)) 提供了用于研究泛化的程序生成游戏关卡。这些基准仍在 RL 研究中广泛使用,但主要是为 RL 智能体设计的。Agentick 在精神上最接近 MiniGrid 和 MiniHack,但不同之处在于它提供了专为能力类别设计的任务、五种同步观察模态、标准化的 LLM/VLM/RL 框架、预言机轨迹数据集以及用于跨范式比较的统一评分协议。 LLM 和 VLM 智能体基准。BALROG (Paglieri et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib9)) 将六个现有的 RL 游戏环境(BabyAI, Crafter, TextWorld, Baba Is AI, MiniHack, NetHack)包装为文本和视觉接口,用于 LLM 和 VLM 评估,证明了即使是前沿模型在长视野交互任务中 also struggle。然而,BALROG 没有引入针对特定智能体能力设计的新任务,没有在其异构游戏套件中进行能力分解或统一评分,也没有系统地调查观察模态如何影响智能体性能。TextWorld (Côté et al., 2019 (https://arxiv.org/html/2605.06869#bib.bib11)) 提供基于文本的冒险游戏用于语言接地,但仅针对纯文本智能体。Agentick 建立在 BALROG 的关键见解之上,即交互任务暴露了 FM 智能体的根本弱点,同时通过专用任务、多模态观察和跨范式评估基础设施解决了这些局限性。 RLVR 训练环境。另一条并行工作线使用可验证环境进行语言模型的 RL 后训练。数学推理基准如 MATH (Hendrycks et al., 2021 (https://arxiv.org/html/2605.06869#bib.bib45)) 和 GSM8K (Cobbe et al., 2021 (https://arxiv.org/html/2605.06869#bib.bib46)),代码生成基准如 SWE-bench (Jimenez et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib47)) 和 HumanEval (Chen et al., 2021 (https://arxiv.org/html/2605.06869#bib.bib48)),以及推理环境如 Reasoning Gym (Community, 2025 (https://arxiv.org/html/2605.06869#bib.bib49)) 被广泛用于 RLVR 方法 (Guo et al., 2025 (https://arxiv.org/html/2605.06869#bib.bib25))。这些环境在激发推理能力方面很有价值,但它们在序贯复杂性有限的设置中运行:回合是单轮或短视野的,转换是完全确定性的,并且没有部分可观察性、随机动力学或多智能体交互。Agentick 也提供可验证奖励,但旨在测试序贯决策中出现的根本挑战:真正交互、随机、长视野、具有部分可观察性、探索、多步信用分配和多智能体协调的环境:这是当前 RLVR 基准未暴露的挑战类型。 交互式推理基准。ARC-AGI-3 (Chollet and others, 2026 (https://arxiv.org/html/2605.06869#bib.bib10)) 引入了 135 个交互式回合制网格环境用于智能体评估,支持 RL 和 LLM 智能体。然而,它通过单一聚合得分进行评估,没有能力分解,提供的公开环境有限,并且使用自定义 SDK 而非标准 RL 接口如 Gymnasium。Agentick 占据设计空间中的不同点:它旨在既对评估前沿模型能力有用,又对学术研究易于访问,具有原生 Gymnasium 环境、用于训练的程序生成、多模态观察以及按类别的诊断评分。 表 1:智能体评估框架比较。Agentick 是唯一支持所有智能体范式并具备能力分解和训练基础设施的基准。#TasksRLLLMObs. ModesCap. Dec.Train DataGymALE57✓×1××✓DM Control30✓×2×××bsuite23✓×1✓××MiniGrid20+✓×2××✓MiniHack100+✓×2+××✓Crafter1✓×1××✓Craftax2✓×2××✓NetHack1✓×2××✓BALROG6×✓2××✓ARC-AGI-3135✓✓1×××Agentick37✓✓5✓✓✓ ## 3![[无标题图片]](https://arxiv.org/html/2605.06869v1/figures/sprite_goal.png)Agentick 基准 Agentick 通过统一的兼容 Gymnasium 的 (Towers et al., 2024 (https://arxiv.org/html/2605.06869#bib.bib34)) 接口,提供了 37 个程序生成的网格世界任务,涵盖六种能力类别、五种观察模态、四个难度级别以及完整的训练和评估流水线。 ### 3.1 设计、任务和观察 设计由四个原则指导。 范式通用性:每个任务同时产生五种观察模态(ASCII 文本网格、自然语言描述、结构化字典、512×512 等距像素渲染以及原始 numpy 状态数组),以便 RL、LLM、VLM 和人类智能体都可以在没有架构偏差的情况下进行评估(图 1 (https://arxiv.org/html/2605.06869#S3.F1);附录 D (https://arxiv.org/html/2605.06869#A4) 展示了同一状态的所有五种模态)。像素观察默认返回 512×512 以供 VLM 和人类使用,但可以通过标准包装器调整大小;我们的 PPO 基线遵循 ALE 预处理约定,使用 84×84 灰度帧堆叠图像,这是通过对原生 512×512 RGB 渲染进行双线性缩放并转换为亮度获得的。 能力分解:评估不是单一聚合得分,而是沿六个能力维度进行分解,从而实现雷达图分析,揭示智能体的优势和不足。 训练优先设计:环境可矢量化以进行并行 RL 训练,所有 37 个任务均提供基于编程 API(附录 I (https://arxiv.org/html/2605.06869#A9))构建的预言机策略,并提供 120K–500K 个预言机回合的预构建 SFT 数据集
相似文章
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
AI-Trader:在实时金融市场中对自主智能体进行基准测试
本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。