批判性反馈在何时能提升人工智能辅助的理论物理研究?SCALAR:用于智能体推理的结构化批评者-执行者循环
摘要
本文引入了 SCALAR 框架,这是一个结构化的批评者-执行者循环框架,旨在评估人工智能智能体之间不同的交互模式如何提升理论物理问题的推理能力。
查看缓存全文
缓存时间: 2026/05/11 07:06
# 批判性反馈何时能改善 AI 辅助的理论物理研究?SCALAR:用于代理推理的结构化批判者-行动者循环
**来源:** https://arxiv.org/html/2605.06772
**作者:** Constantinos Papageorgakis, Alexander G. Stapleton, Sokratis Trifinopoulos
###### 摘要
随着大型语言模型(LLMs)在研究级物理推理任务中展现出日益增强的潜力,以及代理式 AI(Agentic AI)变得越来越普遍,一个实际问题应运而生:**研究者与代理之间的互动如何影响最终结果?** 我们使用 SCALAR(Structured Critic–Actor Loop for AI Reasoning,用于 AI 推理的结构化批判者-行动者循环)来研究这一问题,这是一种应用于量子场论和弦理论问题的“行动者-批判者-裁判”(Actor–Critic–Judge)管道。行动者提出解决方案,批判者提供迭代反馈,而独立的裁判则根据参考解答对对话记录进行评估。我们变化了行动者的角色设定(persona)、批判者的反馈策略,以及行动者模型的种类和规模。多轮对话在整个过程中均优于单次尝试,但改进机制以及不同提示选择的价值在很大程度上取决于行动者-批判者的配对。在同一模型家族内增加规模(*例如*,从 80 亿参数的 DeepSeek-R1 变体升级到 DeepSeek-R1 70B)改善了某些较简单问题的表现,但并未消除我们观察到的最难的瓶颈。在不对称的行动者-批判者设置中(*例如*,由较强的 Sonnet 批判者指导轻量级 Haiku 行动者),批判者反馈策略的影响最为显著,其中建设性反馈提高了平均得分结果。在同一家族的行动者-批判者设置中,策略效应较弱:宽容的反馈有时更受青睐,而严格和对抗性的反馈则无益。综上所述,SCALAR 提供了一个受控的测试平台,用于评估哪些互动结构有助于或阻碍 AI 驱动的科学发现。
LLM 代理,物理推理,多代理系统,提示策略
CCTP-2026-7 CERN-TH-2026-097 ITCP-2026-7 QMUL-PH-26-15
## 1 引言
大型语言模型(LLMs)和基于 LLM 的代理是驱动科学进程的对话中新型的交流者。它们能够进行推理、做出决策(而不仅仅是执行算法计算),并且比单次查询表现出对迭代提示更强的适应性。这种行为更接近于人类合作者,而非以往任何计算工具。
关于理论物理的新贡献(Guevara 等., 2026; Schwartz, 2026; Shih, 2026b, a; Lu 等., 2025)、数学发现(Romera-Paredes 等, 2024; Novikov 等., 2025)以及高能物理中的代理式科学工作流(Pleh 等., 2026; Agrawal 等., 2026)的早期证据令人鼓舞。然而,物理学家应如何构建这种合作关系仍是一个开放性问题:一般而言,多轮互动表现出粘性错误状态和能力退化(Liang 等., 2024; Laban 等, 2025; Zhang 等., 2025),尽管结构化的多代理池可以减少幻觉(Till 等, 2025)。
我们使用 SCALAR 来探究这些动态,这是一个刻意设计的具有教学意义的**行动者-批判者-裁判**管道:一个 LLM 代理(类似于学生)扮演**行动者**,尝试解决研究生级别的量子场论(QFT)或弦理论问题。**批判者** LLM(类似于教学助理)随后在任务中途提供形成性反馈,而在最终由扮演**裁判**(教师)的独立代理设定工作最终评估的标准之前;有关 LLM 作为裁判的先前讨论见例如(Zhen 等., 2023)。这种教学解释完成了一个支架式循环(Wood 等., 1976; Vygotsky, 1978)。
LLM 推理的多代理方法已显示出希望——从辩论框架(Du 等., 2024; Estornell 等., 2024)到用于物理的专门细化代理(Jaiswal 等, 2024)以及可解释的 AI-科学家合作(Xue 等., 2025)。预提示策略也被证明对 LLM 输出感知质量有可测量的影响(Kim 等., 2024),近期关于指令干扰的研究表明,模型可能对任务指令如何嵌入周围文本敏感(Hwang 等., 2025)。然而,据我们所知,此前没有工作系统地研究过在理论物理领域,人类与 AI 之间的哪些**互动策略**能导致最佳结果。
我们的动机有三重。首先,物理学家已经在日常计算中咨询 LLMs,因此我们需要评估整个互动过程,而不仅仅是第一个答案:这些工具收敛的可靠性、它们对挑战的响应以及它们失败的地方。这是在单轮基准未评估的领域校准这种使用的前提(Chung 等, 2025; Gao 等, 2025; Zhang 等., 2025)。其次,理论研究正转向物理学家监督一系列 AI 代理的工作流,而不是同时与一个模型互动。在我们的自动化基准中,这种监督角色被风格化为外部裁判,而即时批判者反馈则委托给 AI 教学助理。在开放式使用中,物理学家可能通过质疑主张、提供一致性检查并决定交流是否达到所需标准,直接承担部分批判者角色。因此,理解哪些支架风格帮助哪些 AI 行动者达到正确解决方案,是使任一监督模式有效的前提。第三,SCALAR 为我们提供了一个受控的测试平台,以便对广泛重复的提示工程声明进行假设检验——*例如*,“为模型分配角色”可以使性能波动数十个百分点的报道(Gupta 等, 2024)——在当代模型和推理密集型科学任务上。
为了研究这些问题,我们为各方引入了独立的变量轴。行动者通过**行动者角色设定**变化,定义为**专业知识水平**(新手、专家或未指定默认值)和**推理风格**(细致、物理直观、怀疑论或未指定)的组合。这是物理学家在要求模型以特定方式处理问题时可能使用的行动者预提示类型。批判者在一系列**批判者反馈策略**(从宽容和教学到严格和对抗,加上未指定的默认值)之间变化,捕捉助手干预的方式。在对话期间,裁判仅作为正确性的参考背书评估者出现,对行动者-批判者的交流保持沉默。存储的转录记录随后可以由额外的裁判重新评分,让我们将互动效应与裁判特定的评分效应分开。这定义了裁判的角色,即在不积极参与的情况下设定交流标准的权威。
每个角色设定-策略配置在研究生级别的 QFT 和弦理论问题上采样多次,使我们能够估计重复对话中的趋势,而不是依赖单次运行的轶事。除了终点得分和收敛率外,我们还使用每轮的**得分更新曲线**作为紧凑的诊断工具,以判断批判者反馈何时继续推动行动者,以及对话何时似乎进入低漂移状态。
虽然 SCALAR 是在理论物理背景下设置的,但它可以直接扩展到其他领域。我们试图提取的关于 LLM 预提示和互动的教训最终可以 informs 多代理设置的优化,其中代理角色和技能集起着重要作用。更广泛地说,我们将我们的分析视为迈向更高效 AI 辅助开放式研究的一步;这里识别出的互动模式为未来的工作提供了词汇。
**图 1:** SCALAR 行动者-批判者-裁判管道。行动者和批判者参与迭代对话,而独立评估者(裁判)根据地面真值对行动者的当前解决方案进行评分。行动者的输出受行动者角色设定的影响;批判者的反馈受批判者反馈策略的影响。
## 2 方法
### 2.1 角色、反馈策略和管道
我们通过描述 SCALAR 行动者角色设定和批判者反馈策略来开始讨论我们的方法,这两者都通过预提示实现。行动者角色设定分为两个正交维度。第一个设置专业知识水平:**专家**(“你是理论物理专家”)、**新手**(“你是学习 QFT 的学生”)或**默认**(无专业知识指令)。第二个涵盖不同的推理风格,塑造行动者在计算中采取的方法:**细致**(强调仔细代数和交叉检查)、**物理直观**(优先考虑物理直觉和极限情况)、**怀疑论**(在每一步质疑假设),或**默认**(无风格指令)。所有组合产生 $3 \times 4 = 12$ 种行动者角色设定。
批判者的反馈策略控制提供给行动者的反馈的语气:**对抗性**( aggressively 挑战主张)、**严格**(精确标记错误)、**教学式**(苏格拉底式提问)、**宽容**(接受部分进展的温和建议)和**默认**(无风格强调)。完整的提示文本见附录 A。
分配给每个角色的 LLM 是另一个自由度,我们的模型选择描述在 2.3 节中。
固定预提示后,SCALAR 按如下流程进行(图 1)。给定问题陈述和角色设定-策略配置,行动者产生初始解决方案尝试。批判者可以访问参考解决方案,但被指示不透露它,然后审查该尝试,标记错误,并提供结构化反馈。裁判根据参考解决方案对行动者的工作进行评分,并发出通过/失败判决。如果行动者通过,或满足早停条件(迭代限制或得分停滞),则保存并终止运行。否则,将批判者的反馈传回行动者进行进一步尝试,并重复循环直到满足停止条件。
对于分析,每次行动者回合后记录的状态包括固定的实验设置和当时可用的对话记录。因此,记录的对话状态是生成对话的自然马尔可夫状态:在该状态和固定配置的条件下,下一次角色调用在没有调用任何额外记录对话历史的情况下生成。在 3 节中,我们将裁判得分分析为这种演变马尔可夫状态的标量投影。
### 2.2 评估和指标
在每次迭代 $t$,裁判在六个维度上对行动者的当前解决方案进行评分,总分 100 分:正确性(50)、数学严谨性(10)、逻辑流(10)、论证质量(10)、完整性(10)和物理一致性(10)。令 $s_t \in [0, 100]$ 表示第 $t$ 轮后的总分。这里小写 $t$ 索引回合,而上标 $T_i$ 表示运行 $i$ 中评分的行动者状态的数量。具有 $T$ 个评分行动者状态的运行产生序列 $s_0, s_1, \dots, s_{T-1}$。
裁判在行动者-批判者循环之外操作:其评分不反馈到对话中,因此相同的转录记录可以由不同的裁判 LLM 重新评分,以将对话级效应与裁判特定效应分开。下文,下标 $i$ 表示一次运行,尖括号表示在指定的一组运行上的算术平均值。我们报告三个评估指标:两个以 100 分为基数的基于得分的量,以及一个作为运行百分比的报告率:
* **每轮平均得分:** $\bar{s}_i = \frac{1}{T_i} \sum_{t=0}^{T_i-1} s_{i,t} \in [0, 100]$。这是整个对话中每轮的平均得分。当我们引用组均值 $\bar{s}$ 时,我们指的是这些运行级量的算术平均。当我们引用**最终得分**时,我们会明确说明,并对运行平均 $s_{i, T_i-1}$。
* **增益:** $g_i = s_{i, T_i-1} - s_{i,0} \in [-100, +100]$。这是 100 分制下的终点得分改善。$g_i > 0$ 意味着对话使解决方案更好。
* **收敛率:** 令 $r_i \in \{0, 1\}$ 表示运行是否收敛。当对话的至少一次迭代产生的行动者解决方案满足所有三个标准时,该运行被计为收敛:正确性 $\geq 40$(*即*,50 分正确性标准的 $\geq 80\%$),总行动者得分 $\geq 80$,以及在评分裁判下最终答案与参考等效。对于由同一裁判驱动的原始循环的运行,通过的迭代也是终端迭代;对于重新评分的转录记录,循环长度由原始裁判固定,重新评分的裁判可以将非终端迭代标记为通过。对于任何一组运行 $G$,收敛率为 $R_G = \langle r_i \rangle_{i \in G}$,并以百分比报告。见附录 D 获取正式规则。
对于跨问题的批判者反馈策略比较,我们还使用**问题归一化对比**。令 $m(i)$、$p(i)$ 和 $c(i)$ 分别表示运行 $i$ 的行动者模型设置(Haiku, DS8B 或 DS70B)、问题和批判者反馈策略。对于行动者模型设置 $m$ 和批判者反馈策略 $c$,定义:
$$
D_{\bar{s}}(m,c) = \left\langle \bar{s}_i - \langle \bar{s} \rangle_{m, p(i)} \right\rangle_{m(i)=m, c(i)=c}
$$
$$
D_R(m,c) = 100 \left\langle r_i - \langle r \rangle_{m, p(i)} \right\rangle_{m(i)=m, c(i)=c}
$$
因此 $D_{\bar{s}}$ 以得分点衡量,$D_R$ 以百分点衡量。这些量是描述性对比,而不是新的原始得分:它们询问批判者反馈策略是否高于或低于局部行动者-问题基线。这里“局部”意味着相同行动者模型设置的基线...相似文章
ReCrit:面向科学批评推理的过渡感知强化学习
ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架,将初始到批评行为分解为四个象限(Correction、Sycophancy、Robustness、Boundary),并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。
ICRL:通过强化学习内化自我批判
本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。
Critic-R: 使用指令调优检索器与自然语言内省反馈改进Agentic Search
Critic-R引入了一个框架,使用评判模型在推理智能体和检索器之间提供内省反馈,在推理和训练时间同时提升智能体搜索性能,且无需重新训练智能体。
@Thom_Wolf:观察一群智能体解决一个困难的理论物理问题相当令人着迷——自行纠正、推导……
一条推文观察到AI智能体协作解决一个困难的理论物理问题,展示了自我纠正和方程推导。
AI编写的评论帮助人类发现缺陷
# AI编写的评论帮助人类发现缺陷 来源:[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo