大型语言模型中的交互推理评估：基于可执行游戏的分层基准

arXiv cs.AI 2026/06/02 04:00 论文

摘要

本文介绍了一个用于推理评估的多轮交互框架，其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准，展示了区分能力并揭示了推理差异。

arXiv:2606.00103v1 公告类型：新摘要：我们介绍了一个用于推理评估的多轮交互框架，该框架将推理视为主动证据获取和信念更新。其中，LLMs仅接收任务规则，必须向隐藏环境发出有针对性的查询，随时间整合部分观察结果，并决定何时提交最终答案。除了标准的成功率和交互效率外，我们还在受控上下文扰动下评估上下文鲁棒性，并通过反事实修正和必要性判断评估元认知适应能力。我们将该框架实例化为一个包含474个可执行游戏的基准，每个游戏在对应五个难度级别的五个固定配置搜索空间下进行评估，并评估了一系列前沿LLMs。结果表明，该基准具有高度区分性，不仅揭示了成功率上的巨大差异，还揭示了交互效率上的巨大差异。此外，我们经验性地表明，上下文扰动会导致适度但持续的下降，而反事实修正和必要性判断则会导致更大的下降。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:45

# 大型语言模型中的交互式推理评估：一种具有可执行游戏的分层基准
**来源：** https://arxiv.org/html/2606.00103

明远范¹，卫国汉²，戴信王²，岑陈¹，志强张²，军周²  
¹华东师范大学，²蚂蚁集团

###### 摘要
我们提出了一种用于推理评估的多轮交互框架，将推理视为主动证据获取和信念更新。在此框架中，大型语言模型仅接收任务规则，必须向隐藏环境发出针对性查询，随时间整合部分观测结果，并决定何时提交最终答案。除了标准的成功率和交互效率外，我们还评估了受控上下文扰动下的*上下文鲁棒性*，以及通过*反事实修正*和*必要性判断*实现的*元认知适应*。我们将该框架实例化为一个包含474个可执行游戏的基准，每个游戏在五个对应于五种难度等级的固定配置搜索空间下进行评估，并评估了一系列前沿大型语言模型。结果表明，该基准具有高度区分性，不仅在成功率上，而且在交互效率上也暴露了巨大差异。此外，我们实证表明，上下文扰动会导致中等但持续的性能下降，而反事实修正和必要性判断则会导致更大的下降。

# 大型语言模型中的交互式推理评估：一种具有可执行游戏的分层基准

明远范¹，卫国汉²，戴信王²，岑陈¹，志强张²，军周²  
¹华东师范大学，²蚂蚁集团

## 1 引言

大型语言模型（LLMs）近年来在推理基准上取得了令人瞩目的成果 [Comaniciet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib20)；Liuet al. (2024) (https://arxiv.org/html/2606.00103#bib.bib19)]。然而，大多数现有评估本质上仍然是静态的 [Yuet al. (2020) (https://arxiv.org/html/2606.00103#bib.bib2)；Cobbeet al. (2021) (https://arxiv.org/html/2606.00103#bib.bib1)；Chenet al. (2021) (https://arxiv.org/html/2606.00103#bib.bib8)]：模型被给予一个完全指定的问题，并被要求一次性给出最终答案。这种设置越来越不足以评估推理本身。一方面，它不能测试模型是否能够主动寻找缺失信息、随时间更新信念以及判断证据何时足够。另一方面，静态基准上的失败常常混淆了两个不同的来源 [Banget al. (2025) (https://arxiv.org/html/2606.00103#bib.bib21)；Yinet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib22)]：知识缺陷（模型缺乏必要事实）和推理缺陷（模型拥有足够信息但未能正确使用）。由于静态评估很少分离这些情况，其诊断价值有限。

为了解决这一局限性，我们提出了一种用于交互式推理评估的分层框架，将模型视为部分可观测环境下的主动智能体。模型并非一开始就接收完整的问题描述，而是只获得任务规则，必须迭代地发出针对性查询、收集部分证据、更新其信念，并决定何时提交答案。这种设置更直接地将推理衡量为顺序信息获取和证据整合，同时也减少了污染问题，因为没有固定的提示-答案对可以记忆。

为了将推理与事实回忆和语义先验分离开来，我们使用最小化的结构原语构建游戏。具体来说，我们在四种经典数据结构（集合、序列、树和图）上定义隐藏状态空间，并在三种推理模式（演绎、归纳和溯因）下实例化它们。这种结构化设计产生了一个受控的测试平台，其中性能可以更清晰地归因于算法推理而非现实世界知识。

在这个交互式主干之上，我们引入了两个更高阶的评估层，以获得更精细的模型能力视图。第一个是*上下文鲁棒性*，测试推理在语义扰动、无关上下文和情节边界变化下是否保持。第二个是*元认知适应*，检查模型是否能在早期证据被纠正时修正信念，以及是否能区分逻辑必要信息与仅仅充分的信息。

我们将该框架实例化为一个包含474个可执行游戏的基准，每个游戏在五个难度等级（即五个不同的配置搜索空间）下评估，总共2370个实例。该基准涵盖了四种数据结构和三种推理模式的所有组合，并包括用于上下文鲁棒性和元认知适应的受控探针。我们进一步注意到，最近的一些基准 [Liet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib14)；Badolaet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib16)；Duanet al. (2024) (https://arxiv.org/html/2606.00103#bib.bib17)；Huet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib18)] 已经探索了游戏或对话等交互环境中的多轮推理。然而，这些基准在规模、结构多样性或分离推理能力不同组成部分的程度上往往受到限制。

实证上，我们发现该基准具有高度区分性：前沿模型不仅在最终成功率上，而且在交互效率上也存在显著差异。性能在不同推理模式下系统性地变化，演绎任务通常比溯因任务更容易，而基于集合的游戏成为最具挑战性的家族。我们还发现，上下文扰动会导致中等程度的性能下降，而反事实修正和证据裁剪探针则揭示了更大的弱点。这些结果表明，当前的大型语言模型更擅长在固定证据下解决问题，而不太擅长维护一个可修正的答案正确性解释。

我们的主要贡献如下：
- •我们提出了一个评估交互式推理的分层框架，将推理视为部分可观测环境下的主动信息获取，而非一次性答案生成。此外，我们引入了两个高阶评估层——上下文鲁棒性和元认知适应，以探究抽象不变性、噪声容限、边界控制、信念修正和必要性判断。
- •我们构建了一个包含474个可执行游戏的基准，涵盖四种经典数据结构和三种推理模式，并设有五个对应于五个难度等级的固定配置搜索空间，实现了受控、可比且抗污染的评估。
- •我们提供了一项对前沿大型语言模型的系统性实证研究，表明虽然当前模型通常能够进行交互式搜索，但在鲁棒性、信念修正和证据归因方面仍然明显较弱。

## 2 相关工作

大量先前的工作在静态、单轮设置中评估大型语言模型的推理，其中模型接收一个完全指定的问题并产生最终答案。逻辑推理基准如 ReClor 和 LogiQA 揭示了浅层模式匹配与演绎推理之间的差距 [Yuet al. (2020) (https://arxiv.org/html/2606.00103#bib.bib2)；Liuet al. (2020) (https://arxiv.org/html/2606.00103#bib.bib3)]。数学基准如 GSM8K、MATH、MathVista、FrontierMath 和 Humanity's Last Exam 测试难度递增的问题求解形式 [Cobbeet al. (2021) (https://arxiv.org/html/2606.00103#bib.bib1)；Hendryckset al. (2021b (https://arxiv.org/html/2606.00103#bib.bib4))；Luet al. (2024) (https://arxiv.org/html/2606.00103#bib.bib5)；Phanet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib6)；Glazeret al. (2024) (https://arxiv.org/html/2606.00103#bib.bib7)]。代码推理同样从函数合成基准如 HumanEval 和 APPS [Chenet al. (2021) (https://arxiv.org/html/2606.00103#bib.bib8)；Hendryckset al. (2021a) (https://arxiv.org/html/2606.00103#bib.bib9)] 发展到更真实的软件工程任务如 SWE-bench [Jimenezet al. (2024) (https://arxiv.org/html/2606.00103#bib.bib10)]。

最近的基准转向多轮评估。MT-Bench 及后续数据集如 MT-Bench-101、MultiChallenge 和 TurnBench-MS 评估了长时程指令跟随和多步推理等能力 [Zhenget al. (2023) (https://arxiv.org/html/2606.00103#bib.bib11)；Baiet al. (2024) (https://arxiv.org/html/2606.00103#bib.bib12)；Deshpandeet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib13)；Liet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib14)；Zhanget al. (2025) (https://arxiv.org/html/2606.00103#bib.bib15)]。然而，这些设置大多以对话为中心：模型响应不断变化的提示，而不是主动查询隐藏环境以获取证据。它们也常常混合推理与现实世界知识、对话能力和指令跟随。

与我们的工作最接近的是基于游戏和交互式的基准。MTR-Bench [Liet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib14)] 评估了40个自动化任务上的多轮交互。Multi-Turn Puzzles [Badolaet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib16)] 研究了基于对话的谜题求解和逻辑一致性。GTBench [Duanet al. (2024) (https://arxiv.org/html/2606.00103#bib.bib17)] 评估了棋牌游戏中的策略推理，而 GameArena [Huet al. (2025) (https://arxiv.org/html/2606.00103#bib.bib18)] 使用 Roblox 小游戏中的实时人机交互来探究演绎和归纳推理。总体而言，这些工作已经开始研究多轮推理，但很少将推理孤立为顺序证据获取和信念更新。它们也很少测试对受控上下文扰动的鲁棒性或在早期证据被修正后的适应能力。许多基准进一步将推理与现实知识、对话技能或任务特定策略混为一谈，或者规模有限。我们的工作旨在解决这些局限性。

## 3 交互式推理的分层评估框架

我们提出了一个交互式推理评估的分层框架。其核心是一个清晰的交互式主干，将推理形式化为部分可观测性下的状态搜索。在此主干之上，我们引入了两个更高层次的评估层，即上下文鲁棒性和元认知适应，以探究日益高级的能力。第3.1∼3.4节侧重于这些层的概念设计；可执行基准实例化和构建流程在第3.5节中描述。

### 3.1 设计原则

我们的框架遵循四个原则：
- •抗污染性。静态基准暴露固定的提示-答案对，因此容易受到记忆化的影响。相比之下，我们的评估是交互式的并且动态实例化：每个情节都是从隐藏配置生成的，并且所揭示的证据取决于模型自身的动作。这大大降低了记忆固定轨迹或答案模式的可能性。
- •分层诊断设计。我们从不完全确定性下的基本交互式搜索开始，然后逐渐增加更困难的条件。这种分层设计有助于区分基本搜索、上下文鲁棒性和适应性修正的失败。
- •区分性评估。一个有用的基准应该能够分离不同能力水平的模型。我们通过五个固定的配置搜索空间来变化难度，这些空间控制搜索空间大小和隐藏状态复杂性，同时保持跨模型、方法和评估设置的可比性。
- •结构多样性和覆盖范围。我们并非依赖于单一的任务模板，而是跨多种数据结构和推理类型构建游戏，以测试推理是否能够在质上不同的交互设置中泛化。

**算法1** 交互式协议

**输入：** 游戏类型 Q，游戏配置 C，LLM π，最大轮次预算 T_max
**输出：** 最终状态 E_status ∈ {Success, Failure, FormatError, Timeout}，交互次数 N

1: E ← InstantiateGame(Q, C)
2: p0 ← E.getRules()
3: p0 ← ContextWrapper(p0)   ▷ 可选：同构扰动 / 规则噪声
4: H0 ← [p0]                 ▷ 初始化交互历史
5: H0 ← HistoryWrapper(H0)   ▷ 可选：游戏间边界控制
6: for t = 1,2,...,T_max do
7:   r_t^agent ← π(H_{t-1})  ▷ LLM 基于完整历史行动
8:   if E.isQuery(r_t^agent) then
9:     if E.is_invalid_format(r_t^agent) then
10:      return (FormatError, t)
11:    end if
12:    r_t^env ← E.respondToQuery(r_t^agent)
13:    r_t^env ← NoiseWrapper(r_t^env)   ▷ 可选：游戏内噪声注入
14:    (r_t^env, H_{t-1}) ← RevisionWrapper(r_t^env, H_{t-1}) ▷ 可选：反事实修正
15:    H_t ← H_{t-1} ⊕ [r_t^agent, r_t^env]
16:  else if E.isSubmit(r_t^agent) then
17:    if E.is_invalid_format(r_t^agent) then
18:      return (FormatError, t)
19:    end if
20:    if E.checkAnswer(r_t^agent) then
21:      return (Success, t)
22:    else
23:      return (Failure, t)
24:    end if
25:  else
26:    return (FormatError, t)
27:  end if
28: end for
29: return (Timeout, T_max)

### 3.2 交互式推理主干

在我们的框架核心，每个任务都被表述为部分可观测性下的多轮交互游戏。一个大型语言模型与包含隐藏状态的环境交互，必须通过主动收集信息来推断目标答案。与标准推理基准（所有信息一开始就给出）不同，我们的设置最初只提供游戏规则；模型必须通过查询和证据整合来减少不确定性。

如算法1所示，一个情节开始于从游戏类型 Q 和配置 C 实例化环境 E。这种分离使我们能够改变难度同时保持任务结构。环境返回一个初始提示 p0 = E.getRules()，它指定了目标和有效动作格式，交互历史初始化为 H0 = [p0]。在每个步骤 t，模型生成响应 r_t^agent = π(H_{t-1})。

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

相似文章

在复杂隐藏角色游戏中评估大型语言模型

大型语言模型中的数学推理：基准、架构、评估与开放挑战

GENSTRAT：迈向大型语言模型战略推理科学

@burny_tech: 隐式推理综述 "大型语言模型(LLMs)展现了令人印象深刻的推理能力，尤其是……

超越当前观察：在可控非马尔可夫游戏中评估多模态大语言模型

提交意见反馈