是什么驱动了反馈带来的交互式改进?

arXiv cs.AI 论文

摘要

本文研究了在多轮语言智能体场景中,自然语言反馈带来的改进是否超越了仅靠反复尝试所取得的提升。通过跨多个基准测试的受控学生-教师协议,作者发现自我生成的反馈几乎没有额外增益,而强大的外部教师则能带来显著更大的提升,并且学生根据反馈采取行动的能力是关键瓶颈。

arXiv:2606.30774v1 公告类型:新 摘要:我们研究了自然语言反馈何时能产生超越仅靠反复尝试所取得的增益。在多轮语言智能体设置中,更高的最终准确率可能反映了有用的反馈,但也可能源于重采样、格式修正或额外的测试时计算。为了分离这些效应,我们跨 Omni-MATH、Codeforces、BBEH Linguini 和 ARC-AGI1 引入了一个受控的学生-教师协议,评估了十三种开放权重模型在学生和教师角色中的表现。我们比较了外部反馈、自我反馈和无指导的自我改进,同时变化交互历史、任务难度以及教师对特权任务信息的访问权限。在各种设置下,我们发现多轮改进往往不是使用反馈的证据:自我生成的反馈相对于无指导的自我改进几乎没有额外增益,而最强的外部教师则产生了显著更大的反馈特定增益,这表明有用的反馈必须提供超越通用重试的指导。密集的学生-教师交互矩阵进一步显示,交互式增益更多由学生使用反馈的能力驱动,而非教师的身份,尽管对于固定学生而言,教师的选择仍然重要。这些结果表明,基于反馈的智能体应针对反复尝试的基线进行评估,并且根据反馈采取行动的能力(而非仅仅反馈的可用性)是交互式改进的主要瓶颈。我们在 https://j-lojek.github.io/feedback-generation-is-a-bottleneck/ 发布了受控的学生-教师评估框架。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:36

# 是什么推动了反馈带来的交互改进?  
来源:https://arxiv.org/html/2606.30774  

Bartłomiej Cupiał¹,²,\* Jan Łojek¹ Mikołaj Garstecki¹ Szymon Pobłocki¹ Alicja Ziarko¹,²,³ Piotr Miłoś¹,⁴,⁵  

###### 摘要  

我们研究了自然语言反馈何时能带来超出仅靠重复尝试所能获得的改进。在多轮语言智能体场景中,更高的最终准确率可能反映有用的反馈,但也可能源于重新采样、格式修正或额外的测试时计算。为了分离这些影响,我们引入了一个受控的学生-教师协议,涵盖 Omni-MATH、Codeforces、BBEH Linguini 和 ARC-AGI1 四个基准,评估了十三个开源模型在学生和教师两种角色上的表现。我们比较了外部反馈、自我反馈和无引导的自我改进,同时变化交互历史、任务难度以及教师对特权任务信息的访问权限。在各种设置下,我们发现多轮改进通常不是反馈使用的证据:自我生成的反馈相比无引导的自我改进几乎没有额外收益,而最强的外部教师则能带来显著的反馈特定增益,这表明有用的反馈必须提供超出通用重试的指导。密集的学生-教师交互矩阵进一步显示,交互增益更多地取决于学生使用反馈的能力,而非教师的身份,尽管对于固定学生而言,教师的选择仍然重要。这些结果表明,基于反馈的智能体应与重复尝试基线进行对比评估,并且能够基于反馈采取行动(而不仅仅是反馈的可用性)是交互改进的主要瓶颈。我们在 https://j-lojek.github.io/feedback-generation-is-a-bottleneck/ 发布了我们受控的学生-教师评估框架。  

00footnotetext:Accepted to “RLxF: Reinforcement Learning from World Feedback”.  
00footnotetext:\*Corresponding author: [email protected].  
¹University of Warsaw  
²AKCES NCBR  
³Princeton University  
⁴Mistral AI  
⁵Institute of Mathematics, Polish Academy of Sciences  

## 1 引言  

参见标题图1  

图 1:多轮轨迹主要按学生区分。虽然更强的教师(如 Gemma4-31B)能为高能力学生带来明显提升,但曲线之间的主要垂直分离是由学生而非教师驱动的。  

语言模型(LMs)越来越多地被部署为能够行动、观察和修正的智能体,而不是仅生成单一孤立答案的系统。编码智能体对测试和错误轨迹做出反应,计算机使用智能体观察不断变化的界面状态,助手根据用户的纠正或澄清修改计划。在这些场景中,反馈的作用不仅限于标记成功或失败:它可以解释问题所在,识别缺失的约束,并建议恢复路径。因此,从反馈中改进本身正成为一种重要能力:智能体必须识别反馈中哪些部分是可操作的,保留其尝试中已经正确的部分,并修改导致失败的部分。  

研究从反馈中改进需要分离几种通常纠缠在一起的机制。模型可能因为接收到有用的纠正信息而在多轮中改进,但也可能仅仅因为通过更多计算重新尝试而改进。当反馈确实有帮助时,限制因素可能出现在交互的任一方:教师可能未能识别相关错误,或者学生可能未能将正确的诊断转化为更好的解决方案。因此,我们通过评估不同学生和教师模型(在受控的交互历史、教师信息条件和重复尝试基线设置下)来区分反馈生成和从反馈中改进。这使我们不仅能问反馈是否提高了性能,还能问它何时在自我改进之外提升了性能,以及反馈系统的哪一部分限制了这种改进。  

我们在一个学生-教师协议中回答这些问题,任务基于可验证的基准。在每个回合中,学生模型尝试解答一个问题。如果尝试不正确,教师模型提供自然语言反馈,学生修正其答案。验证器使每次尝试都可衡量,而学生-教师分离让我们可以变化学生、教师、交互预算、可见历史以及教师对特权任务信息的访问权限。我们在四个可验证的推理环境中实现这一评估:Omni-MATH、Codeforces、BBEH Linguini 和 ARC-AGI1,并运行学生-教师交互网格,其中每个模型扮演两种角色。在这些设置中,我们发现多轮改进往往不是反馈使用的证据:重复尝试解释了大部分增益,自我反馈在通用重试上的改进不一致,最强的反馈特定改进来自高质量的外部教师,且学生使用反馈的能力比教师身份更能解释性能变化。  

总之,我们的贡献如下:  
- • 我们引入了受控的零样本学生-教师评估框架,涵盖四个可验证的推理环境,用于自然语言反馈研究。  
- • 我们展示了多轮改进并不等同于反馈使用:自我反馈相比自我改进几乎没有额外收益,而最佳的外部教师能带来显著的反馈特定增益。  
- • 我们发现交互性能主要依赖学生:学生身份解释的增益变化远大于教师身份,尽管对于固定学生,教师选择可能重要。  
- • 我们展示了更长的历史和特权教师信息是有选择性的干预措施,而非默认的改进方式,其收益取决于任务和模型能力。  

## 2 相关工作  

#### 自我改进与重复采样。  
大型语言模型越来越多地被用作交互式智能体,在多个轮次中完成任务,而不是单次生成 (Wang et al., 2024 (https://arxiv.org/html/2606.30774#bib.bib19))。在这种设置中,模型必须遵循顺序指令,并在轮次间整合新的反馈 (Laban et al., 2025 (https://arxiv.org/html/2606.30774#bib.bib18))。然而,多轮改进并不一定意味着模型使用了反馈:后续尝试也获得了更多的测试时计算和额外的样本。这种区分尤为重要,因为额外计算已知能通过链式思维提示 (Wei et al., 2023 (https://arxiv.org/html/2606.30774#bib.bib27)) 和 Best-of-N 采样 (Wang et al., 2023 (https://arxiv.org/html/2606.30774#bib.bib28)) 等机制提高性能。相关的智能体系统如 Reflexion 使用语言反馈或过去失败的记忆来改进未来尝试 (Shinn et al., 2023 (https://arxiv.org/html/2606.30774#bib.bib16))。我们的工作建立在此类研究基础上,通过明确比较反馈条件下的改进与无引导的自我改进,使我们能够估计观察到的增益中有多少是反馈特有的,而非重复尝试的结果。  

#### 使用教师反馈对语言模型进行后训练。  
近期的后训练方法越来越多地将模型改进视为学生-教师问题,其中学生模型从更强的教师、验证器或环境产生的信号中学习。标准方法包括监督微调、偏好优化、来自 AI 反馈的强化学习以及使用可验证奖励的强化学习 (Ouyang et al., 2022 (https://arxiv.org/html/2606.30774#bib.bib26); Lee et al., 2024 (https://arxiv.org/html/2606.30774#bib.bib25); Rafailov et al., 2024 (https://arxiv.org/html/2606.30774#bib.bib24); Guo et al., 2025 (https://arxiv.org/html/2606.30774#bib.bib29); Shao et al., 2024 (https://arxiv.org/html/2606.30774#bib.bib30))。这些方法是有效的,但它们的反馈信号通常是示范、成对偏好、标量奖励或结果级别的验证。此类信号可以改善行为,但它们提供的关于学生尝试解决方案中哪个部分导致失败的信息有限。  

参见标题图2  

图 2:(上)单个教导性交互。我们将单轮问题转换为多轮教导性交互。教师模型在可选择的特权信息(例如,真实答案)条件下,向学生模型提供自然语言反馈,但不透露最终答案,引导其纠正错误。(下)多轮反馈协议。每次失败的学生尝试被转换为教师反馈,用于下一次尝试。该循环重复直到达到预设的最大轮次或学生正确解答问题。  

这种局限性推动了近期关于更密集教师监督的研究,包括在策略蒸馏(on-policy distillation),其中轨迹从学生采样,教师对学生生成的状态提供监督 (Lu and Lab, 2025 (https://arxiv.org/html/2606.30774#bib.bib31))。它还推动了关于合成和交互式数据生成的工作,尤其是在高质量人类生成训练数据日益有限的情况下 (Villalobos et al., 2024 (https://arxiv.org/html/2606.30774#bib.bib1); Kessler et al., 2026 (https://arxiv.org/html/2606.30774#bib.bib20))。在可验证领域,自然语言反馈可用于构建多轮训练轨迹或改进从反馈中进行的交互式学习 (Klissarov et al., 2026 (https://arxiv.org/html/2606.30774#bib.bib2); Cook et al., 2026 (https://arxiv.org/html/2606.30774#bib.bib3))。相关工作也将自然语言反馈用作微调信号或强化学习风格更新的一部分 (Choudhury and Sodhi, 2024 (https://arxiv.org/html/2606.30774#bib.bib21); Feng et al., 2024 (https://arxiv.org/html/2606.30774#bib.bib22))。我们的工作研究了这种后训练转变的测试时类比:教师观察学生失败的尝试并提供诊断反馈,我们询问这种反馈何时能在重复尝试之外改进性能,更强的教师是否提供更有用的纠正,以及主要瓶颈在于反馈生成还是学生的接受能力。  

#### 反馈生成与辅导。  
一些工作研究了反馈本身的质量。(Xu et al., 2025 (https://arxiv.org/html/2606.30774#bib.bib17)) 确定了语言反馈支持无遗憾学习的条件,包括无偏反馈、智能体将反馈转化为对候选假设评估的能力,以及对真实环境有足够的表征覆盖。在数学推理方面,(Li et al., 2024 (https://arxiv.org/html/2606.30774#bib.bib14)) 评估了模型是否能检测并纠正有缺陷推理轨迹中的错误,而 (Gupta et al., 2025 (https://arxiv.org/html/2606.30774#bib.bib13)) 分析了 GPT 系列模型在最终答案正确性之外的辅导行为。这些工作关注反馈是否有效、有帮助或符合教学法。我们的工作通过评估完整的学生-教师交互来补充它们:教师可能生成有用的反馈,但改进还取决于学生是否能够据此行动。  

## 3 实验设置  

在本节中,我们描述我们的实验设置。  

#### 环境。  
我们将评估限制在那些对于每个问题和解决方案对,可以验证给定解决方案是否正确的环境中。这一假设在文献中很常见。为了使结果更稳健,我们考虑了四个具有挑战性的环境,它们专注于不同领域并测试不同能力:  
- **Omni-MATH** (Gao 等人, 2024 (https://arxiv.org/html/2606.30774#bib.bib8)):奥林匹克级别的数学推理基准。  
- **Codeforces** (juvi21, 2024 (https://arxiv.org/html/2606.30774#bib.bib9)):竞争性编程基准。  
- **Linguini** 任务,来自 **BIG-Bench Extra Hard (BBEH)** (Kazemi 等人, 2025 (https://arxiv.org/html/2606.30774#bib.bib10)):专门挑战模型学习新规则的能力。  
- **ARC-AGI** (Chollet, 2019 (https://arxiv.org/html/2606.30774#bib.bib12)):呈现网格变换谜题,只能通过从少量示例中推断抽象规则来解决。  

#### 交互协议。  
为了研究反馈的影响,我们考虑一个现实的来回对话场景,涉及一个模型和一个能够给出反馈的实体(为简化起见,我们称它们为学生和教师)。每个回合是一个轨迹 τ = (问题描述, s₁, a₁, t₁, ..., sₙ, aₙ),其中初始模型输入包含问题描述。在第 i 轮中,s_i 是学生的输出,a_i 是学生的答案。如果任务特定的验证器将 a_i 识别为错误答案,则 t_i 是教师对学生尝试的反馈。然后,下一轮 i+1 开始,学生模型再次尝试解决问题,并附加教师反馈的信息。对话持续直到达到最大轮次 n 或学生答案正确。我们的交互协议见图 2 (https://arxiv.org/html/2606.30774#S2.F2)。  

#### 学生的输入。  
基于近期反馈比旧反馈更重要的直觉,我们将学生的输入限制为最近的 h 轮历史,其中 h 是一个超参数。因此,学生的输入为 (问题描述, s_k, a_k, t_k, ..., s_n, a_n),其中 k = max(n - h, 0)。  

#### 教师的输入。  
在先前的工作中 (Klissarov et al., 2026 (https://arxiv.org/html/2606.30774#bib.bib2); Cook et al., 2026 (https://arxiv.org/html/2606.30774#bib.bib3)),教师模型被授予对特定任务知识的访问权限,记为 k_t。由于我们选择的评估环境性质不同,本工作中这种额外信息根据使用的数据集采取不同形式:深入的逐步解答、单纯的最终答案,或从学生生成的代码中导出的错误堆栈跟踪。因为较小的模型在获得此类上下文时容易无意中泄露直接解答,我们建立了一个严格的基线,其中不向教师提供额外信息(k_t = none)。然而,为了更好地理解特权上下文的影响,我们还包含了选择性提供基于特定环境的知识的消融实验。配置如下:对于数学环境,教师接收无信息、最终答案或完整解答;对于 BBEH 环境,知识限制为无信息或最终答案;对于代码环境,教师接收无额外信息或完整解答。  

![[无标题图片]](https://arxiv.org/html/2606.30774v1/x2.png)  

图 3:密集矩阵分离零样本能力与反馈中介的性能。行是学生,列是教师(Omni-MATH)。左面板报告反馈前的 acc@1,因此每个学生行的值恒定;右面板报告经过最多十次尝试且使用教师反馈后的 acc@10。比较两个面板显示反馈显著改变了最终性能,一些较亮的列突显了强大的教师,但最强的结构仍然是按行划分的,这表明学生模型是交互的主要驱动力。

相似文章

是什么使交互轨迹对训练终端智能体有效?

arXiv cs.AI

本文研究了什么使交互轨迹对训练基于终端的AI智能体有效,介绍了Terminal-Lego流程,并揭示了一个教学悖论:较弱的智能体可以产生更好的训练数据。研究发现,环境基础监督(而非教师性能)是学生泛化能力的关键。