在线Agent-as-a-Judge:交互式智能体的情境生成评估
摘要
提出在线Agent-as-a-Judge评估框架,该框架利用世界内评估智能体主动生成情境来测试交互式社交智能体,在覆盖率和可靠性上优于被动方法。
arXiv:2606.08200v1 公告类型:新
摘要:评估基于LLM的交互式社交智能体具有挑战性,因为与社会相关的行为不仅取决于孤立输出,还取决于先前的交互、社会角色和后续行动。现有方法通常允许目标智能体在环境中自由行动,然后对得到的轨迹进行评分。然而,这种被动设置可能会遗漏仅在特定社交情境下才可观察到的能力;例如,如果没有出现分歧,冲突处理可能就得不到测试。我们提出在线Agent-as-a-Judge,一个针对交互式社交智能体的情境生成评估框架。在线Agent-as-a-Judge部署了一个世界内评估智能体,通过环境的原生对话和行动协议与目标智能体交互,主动引发与评估标准相关的情境。得到的轨迹为评估即时反应和后续行为提供了证据。在一个包含32个设计者编写的社会标准的生活模拟环境中,在线Agent-as-a-Judge提高了标准覆盖率和与人工标签的一致性,为被动方法可能遗漏的行为提供了更可靠的基于证据的评估。
查看缓存全文
缓存时间: 2026/06/09 08:55
# 在线智能体作为裁判:面向交互式智能体的情境生成评估框架
来源:https://arxiv.org/html/2606.08200
###### 摘要
评估由大语言模型驱动的交互式社交智能体极具挑战性,因为其社交相关行为不仅取决于孤立的输出,还依赖于先前的交互、社交角色和后续行动。现有方法通常允许目标智能体在环境中自由行动,然后对产生的轨迹进行评分。然而,这种被动的设置可能会遗漏那些仅在特定社交情境下才显现的能力;例如,如果没有分歧发生,冲突处理能力可能就得不到测试。我们提出*在线智能体作为裁判*,一种面向交互式社交智能体的情境生成评估框架。*在线智能体作为裁判*部署一个世界内评估智能体,该智能体通过环境原生的对话和行动协议与目标智能体交互,主动引出与评估标准相关的情境。由此产生的轨迹为评估即时响应和后续行为提供了依据。在一个包含由设计师编写的32条社交标准的生命模拟环境中,*在线智能体作为裁判*提高了标准覆盖率和与人工标签的一致性,为那些被动方法可能遗漏的行为提供了更可靠的、基于证据的评估。
大语言模型智能体, 智能体作为裁判, 游戏智能体, 生命模拟, 评估
## 1 引言
大语言模型正越来越多地被用作交互式智能体的认知核心,这些智能体通过结构化的环境协议来观察状态、进行交流和采取行动(Liu等人,2024;Xie等人,2024;Zhou等人,2024a;Wang等人,2023)。这一转变在社交模拟中尤为明显。生成式智能体展示了由大语言模型驱动的角色如何能栖居于一个交互式沙盒中,并展现出可信的个人行为和涌现的社交动态(Park等人,2023)。Concordia将此方向扩展到生成式智能体建模,其中智能体用自然语言描述意图行动,而游戏大师则将其转化为具体结果(Vezhnevets等人,2023)。大语言模型智能体正成为丰富社交世界的参与者,而不再是孤立的响应生成器。
这引出了一个困难的评估问题。在持久性的社交环境中,成功很少由单一的终端结果来定义;它是一种情境敏感的行为模式:智能体是否能维持稳定的角色、记住先前的交互、履行承诺、并修复社交失误。许多这类行为恰恰是普通交互轨迹中不包含的,例如违背承诺、拒绝请求、尴尬的社交提问、或需要情感支持的痛苦时刻。因此,评估的瓶颈不仅在于如何判断一条轨迹,更在于首先如何获得一条包含目标情境的轨迹。
现有的评估方法只能部分解决这一瓶颈。许多将大语言模型作为裁判的方法对已完成的输出或预先录制的轨迹进行评分(Zheng等人,2023;Liu等人,2023;Zhuge等人,2025;Shi等人,2026),这在相关证据已经存在时是有效的,但在证据缺失时却几乎无法产生此类证据。即使是那些能够检索额外记忆或世界状态信息的评估器(Gou等人,2025;Lù等人,2025),也主要是扩展对已有证据的访问,而非创建测试某个标准所需的情境。所缺少的是一个能够在评估过程中进行干预的评估器:一个能与目标交互以引出相关社交情境的评估器,类似于人类游戏测试员将角色置于困难情境中观察其反应。
表1: 面向交互式社交智能体的评估范式比较。✓=支持,△=部分支持,✗=不支持。*过程*=评估交互过程中的行为,而不仅仅是最终输出。*主动*=通过原生的行动/对话协议参与环境,以引出与标准相关的情境。*情境*=访问世界、记忆和关系状态。*定制*=支持设计师编写的行为标准。*可扩展*=无需人工测试努力即可重复运行。
我们提出*在线智能体作为裁判*,一种面向交互式社交智能体的情境生成评估框架。*在线智能体作为裁判*不是在交互完成后才进行评估,而是在评估期间将一个在线裁判嵌入到与目标相同的环境中。该在线裁判拥有一个世界内的角色和人设,使其能够通过环境原生的对话和行动接口,作为另一个角色与目标交互。此外,该在线裁判还配备了评估专用的只读工具,用于暴露与标准相关的情境信息,如其他智能体的角色、关系、记忆和最近的交互,从而使其能够决定引出哪种情境。给定一个由设计师编写的行为标准,在线裁判计划一次探测,通过原生交互引出该情境,观察目标的响应及后续行动。然后利用所产生的轨迹来给出一个基于证据的判断。
我们在一个生命模拟环境中评估*在线智能体作为裁判*,该环境使用一个五角色家庭场景和由设计师编写的标准,涵盖角色一致性、记忆连续性、协调、情感支持和冲突处理。我们将*在线智能体作为裁判*与两个无法干预环境的离线基线方法进行比较:一个离线的“大语言模型作为裁判”,评估固定的交互日志;以及一个离线的“智能体作为裁判”,在评估前从这些日志中检索与标准相关的情境。我们报告证据覆盖率以及与每个标准的人工标签的一致性。
本文做出三项贡献。首先,我们识别出*情境可用性*是评估交互式社交智能体的核心瓶颈:相关证据可能缺失,因为合适的情境从未发生。其次,我们提出*在线智能体作为裁判*,一种框架,其中在线裁判在评估期间与目标交互,通过原生的对话和行动接口引出与标准相关的情境。第三,我们在一个具有32条设计师编写的、涵盖八个社交领域标准的生命模拟中实例化*在线智能体作为裁判*,表明主动引出提高了证据覆盖率以及与每个标准的人工标签的一致性,尤其是在冲突处理和情感支持方面。
参见图注图1: 作为评估目标的生命模拟。(a) 世界是一个有多个NPC的持久性家庭;重要的不是单一结果,而是目标智能体(绿色)如何应对一连串的小型社交情境。(b) 每个智能体在世界结构化协议上运行一个观察-计划-行动循环;一个在线裁判作为*同一个*循环中的一个NPC参与其中。
## 2 相关工作
#### 大语言模型作为裁判。
大语言模型作为裁判的方法使用另一个大语言模型对模型输出进行评分,例如聊天回复、摘要或代码(Zheng等人,2023;Liu等人,2023;Zhou等人,2025;Lee等人,2025)。当人工制品已经存在时,它们很方便,但它们无法要求被测系统展示特定行为,因此无法评估常规输出中不表现的标准。
#### 智能体作为裁判与轨迹评估。
智能体作为裁判将这一概念泛化,为裁判提供检查环境状态和中间步骤的工具(Zhuge等人,2025;Shi等人,2026;Gou等人,2025;Lù等人,2028;Li等人,2026)。然而,这些裁判仍然观察*已完成的*交互,或者与一个独立于被测智能体运行时环境的环境进行交互。他们具有环境意识,但并不生成情境:他们无法创建设计师想要探测的社交情境。*在线智能体作为裁判*在两个轴向上都有所不同:它在交互过程中评估目标,并主动为那些常规轨迹从未触及的标准构建情境。
#### 游戏与智能体基准测试。
越来越多的研究工作在游戏和交互式环境中对大语言模型智能体进行基准测试:跨越众多视频游戏的ORAK(Park等人,2025),具有无限程序化游戏的GVGAI-LLM(Li等人,2025b),用于视觉语言游戏完成的VideoGameBench(Zhang等人,2025),用于角色扮演引擎的RPGBench(Yu等人,2025),用于开放式具身智能体的MineDojo和Voyager(Fan等人,2022;Wang等人,2023),用于工具使用智能体的OSWorld和WebArena(Xie等人,2024;Zhou等人,2024a),跨许多环境的AgentBench(Liu等人,2024),用于长程规划的DeepPlanning(Zhang等人,2026),以及用于利润驱动行动的DeliveryBench(Mao等人,2025)。大多数评分任务完成、奖励或成功率。生命模拟智能体则不同:没有单一任务需要完成,成功是由社交定义的,且相关行为必须由*另一个社交参与者*来*诱发*。
#### 生成式智能体与生命模拟。
生成式智能体(Park等人,2023)和社交模拟场景(Park等人,2022)使用大语言模型建模可信的社交行为;近期工作推动生命模拟作为一种生成媒介(Li等人,2025a;Cheng等人,2025;Duan等人,2026;Wang等人,2025b)。可信度已通过离线方式进行基准测试(Xiao等人,2023),近期的综述和研究认为,验证,而非原始可信度,才是生成式社交模拟的瓶颈(Larooij和Törnberg,2025;Wang等人,2025a;Wu等人,2025)。我们对此方向进行补充:我们不是在抽象层面上询问一个智能体是否可信,而是询问一个智能体是否满足设计师的特定行为标准,并且我们使用一个在线裁判来引出并检查与标准相关的行为。
#### 过程感知与社交评估。
在精神上最接近的是Concordia的集中式游戏大师,它仲裁情境并安排场景以研究一系列涌现的社会模拟现象(Vezhnevets等人,2023),以及近期的一些过程感知审计,如M3-Bench对混合动机社交游戏的评估(Xie等人,2026)、AgentRewardBench对轨迹评估的审计(Lù等人,2025)、以及Meta-Harness在框架级别上的优化(Lee等人,2026)。特别是Concordia,它共享了*在线智能体作为裁判*背后生成情境的直觉,并且已经有效揭示了多种社交现象,但它是从*外部*作为仲裁者来做的,其评估目标本身是涌现现象,而非像游戏设计师在为已发布版本中的特定NPC编写的那样,针对每个角色的行为标准。我们与这些工作共享对最终状态指标会遗漏社交过程的关切,并增加了一个与目标在线交互并改变被观察过程的评估器。
## 3 方法
参见图注图2: *在线智能体作为裁判*框架。裁判接收设计师标准和当前构建版本,计划一个探测,进入与目标智能体相同的模拟世界,通过对话和行动引出相关情境,观察目标的回复和后续行动,并要么给出判决,要么优化探测。由于引出和观察都使用模拟器的原生协议,相同的评估框架能在构建版本发生足以破坏固定基准的变化时依然有效。
### 3.1 问题设定
一个模拟世界 *W* 运行一个离散时间协议。在每一轮,智能体接收一个结构化的观察 *o_t* ∈ *O*,包括可见角色、对话历史、场景状态以及智能体可见的角色属性,并发出一个行动 *a_t* ∈ *A*,该行动混合了自然语言表达和模拟定义的行动,如移动、使用物品或提出交互。*目标智能体* π_T 是这样一个NPC。设计师提供一组标准 *C* = {c_1, ..., c_K},描述 π_T 的软性行为属性,例如*在挑战下维持家庭角色*或*履行家庭请求*。完整列表见附录A。对于每个标准 c,评估分配一个标签 y_c ∈ {pass, fail, insufficient},旨在与设计师的判断相匹配。
### 3.2 *在线智能体作为裁判*
我们将裁判 π_J 实例化为 *W* 内部的一名共同居民参与者。裁判仅通过与普通智能体相同的原生对话和行动协议进行干预。在评估规划方面,它还可以访问只读的检查工具。这些工具暴露了周围场景、附近角色、近期交互以及当前评估片段,并允许裁判更新自己的探测记忆和计划;它们不能修改世界或改变目标智能体的观察。
对于每个标准,*在线智能体作为裁判*维护一个证据集 E,包含迄今为止收集的探测片段。在每次迭代中,裁判检查状态摘要 S 并构建一个探测计划 p。通过原生模拟协议执行 p 会产生一个片段 τ,其中包含裁判的行动、目标智能体的对话回复、任何后续行动以及相关观察。我们以环境轮数测量 |τ|。为便于说明,算法1将循环分离为检查、计划、运行和决定。在实现中,检查、规划和临时决定由同一个探测循环智能体调用完成。相似文章
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
Agent Judge:解决生产环境智能体的长上下文评估(10分钟阅读)
Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
多范式智能体交互实践:buddyMe框架中生成器-评估器、ReAct循环与对抗性评估的系统性分析
本文对在buddyMe框架中实现的三种智能体交互范式(生成器-评估器、ReAct循环和对抗性评估)进行了系统性分析,并提供了来自真实部署的实证案例研究。它形式化了一个五阶段流水线和一个六维评估方案,为多范式智能体系统的设计提供了实用指南。
AI代理的按需人类判断
描述如何构建一个MCP服务器,为AI代理提供按需的人类判断,使它们能够在主观决策和评估中获得真实的人类反馈,而非依赖合成数据或缓慢的方法。