潜在智能体：一种内化多智能体辩论的后训练方法

Hacker News Top 2026/06/04 23:01 论文

multi-agent llm fine-tuning reasoning distillation reinforcement-learning interpretability

摘要

波士顿大学的研究人员提出了 IMAD（内化多智能体辩论），这是一个两阶段微调框架，能够将多智能体辩论过程提炼至单个 LLM 中，在匹配甚至超越显式多智能体辩论性能的同时，实现最高 93% 的 token 用量缩减。该研究还揭示了激活空间中存在特定于智能体的子空间，从而可以对内化推理行为进行有效控制，包括抑制恶意智能体的影响。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:11

# 潜在智能体：一种内化多智能体辩论的后训练方法

来源：https://arxiv.org/html/2604.24881

###### 摘要

多智能体辩论已被证明能够提升大语言模型（LLM）的推理能力。然而，该方法计算开销巨大，需要在回答问题前生成冗长的对话记录。为解决这一效率问题，我们开发了一个框架，通过两阶段微调流水线将多智能体辩论蒸馏至单个LLM中——该流水线将辩论结构学习与通过动态奖励调度和长度裁剪实现的内化相结合。在多个模型和基准测试上，我们的内化模型在使用最多少93%词元的情况下，能够匹配或超越显式多智能体辩论的性能。随后，我们通过激活引导从机制层面探究这一能力的基础，发现内化过程创建了**智能体特定子空间**：激活空间中对应不同智能体视角的可解释方向。我们进一步展示了一个实际应用：通过内化辩论向LLM中注入恶意智能体，再施加负向引导以抑制它们，结果表明，与引导基础模型相比，蒸馏使有害行为更易于定位和控制，同时对通用性能的损害更小。我们的发现为理解蒸馏模型中的多智能体能力提供了新视角，并为控制内化推理行为提供了实用指导。¹

¹代码见 https://github.com/johnsk95/latent_agents

**潜在智能体：一种内化多智能体辩论的后训练方法**

John Seon Keun Yi, Aaron Mueller, Dokyun Lee
波士顿大学 \{jskyi, amueller, dokyun\}@bu.edu

## 1 引言

多智能体辩论是指多个LLM实例在多轮交互中相互批评和完善彼此的推理，这一方法已成为减少幻觉、提升事实准确性的有效手段Du et al.（2023）；Liang et al.（2024）。然而，该方法会产生大量推理开销：在多轮对话中运行多个模型需要消耗大量算力，并在给出最终答案前生成冗长的对话记录。

我们提出了内化多智能体辩论（Internalized Multi-Agent Debate，IMAD），一种将多智能体推理蒸馏至单个LLM的两阶段微调方法。撰写本文时，我们的工作是为数不多探索多智能体通信蒸馏的并行研究之一Li et al.（2025）；Luo et al.（2026），也是首个蒸馏多智能体辩论的工作。我们的方法首先通过监督微调（SFT）训练模型复现辩论结构，再通过具有动态奖励调度的强化学习将辩论逐步内化至模型的潜在空间。在多个模型和基准测试上，我们发现IMAD在词元消耗减少多达93%的同时，能够匹配或超越显式多智能体辩论的性能。在投入初始微调成本后，IMAD可以在保留多智能体辩论推理能力的同时实现单模型的推理效率。

超越效率提升，我们进一步探究IMAD模型是否学习到了每个内化智能体的可恢复表征。我们使用均值差法Marks and Tegmark（2023）推导智能体特定的引导向量Subramani et al.（2022）；Turner et al.（2023）；Rimsky et al.（2024）；Wu et al.（2025），证明内化过程创建了独特的**智能体子空间**：模型激活空间中线性可分的方向，对应于不同智能体的视角。使用引导向量对模型进行引导的实验表明，被引导的IMAD模型相较于基础模型表现出智能体特定的行为。这表明辩论的协作结构在内化过程中得以保留，而非被压缩消失。

最后，我们证明这些智能体子空间是**可控的**。我们在包含刻意设计的恶意智能体（被指示表现出有害意图或幻觉）的辩论数据上训练IMAD，并证明通过负向引导可以抑制由此产生的智能体子空间。我们发现，负向引导能够减弱恶意智能体特征，同时保留任务性能；而IMAD进一步改善了这一权衡关系。值得注意的是，IMAD训练后的抑制效果优于直接引导基础模型，这表明内化过程创建了易于控制的可分离行为子空间。

我们的主要贡献如下：

- 我们提出IMAD，一种在单个LLM内内化多智能体辩论的两阶段训练流水线，以极低的推理成本实现了具有竞争力的性能。
- 我们通过激活引导分析为内化辩论模型提供了机制层面的窗口，证明内化过程创建了可识别的**智能体子空间**：激活空间中对应不同推理视角的独特方向。
- 我们展示了智能体子空间的一种应用：通过负向引导，IMAD后对LLM中恶意特征的抑制更具选择性。

参见图注  
**图1：** 内化多智能体辩论（IMAD）流水线概览。1. 我们首先使用标准多智能体辩论协议在算术任务上收集辩论数据集。利用该数据集，通过监督微调训练单个LLM智能体学习辩论结构。同一智能体随后通过强化学习进一步优化，以内化其辩论过程。2. 我们通过IMAD蒸馏包含多样化智能体的辩论，并通过智能体特定引导激发各智能体特征，从而识别内化模型中的智能体子空间。3. 我们进一步证明，可以通过提取恶意智能体的引导向量并对IMAD模型施加负向引导来抑制已蒸馏的恶意智能体特征。

## 2 内化多智能体辩论

本节详细介绍内化多智能体辩论（IMAD）——我们在单个语言模型内内化多智能体辩论过程的方法，如图1所示。我们的流水线包含三个阶段。首先，我们使用显式多智能体辩论方法Du et al.（2023）生成结构化辩论数据集。随后进入两阶段微调过程：监督微调（SFT），让LLM学习复现辩论格式；强化学习（RL），学习辩论过程的正确性并逐步内化该过程。以下各节将详细介绍流水线的每个环节。

### 2.1 多智能体辩论数据集

在进行辩论内化微调之前，我们使用Du et al.（2023）提出的标准多智能体辩论流程收集数据集。多智能体辩论涉及 $n$ 个LLM智能体，在 $m$ 轮交互中进行对话。第一轮中，每个智能体对问题生成一个答案。在后续轮次中，每个智能体根据自身上一轮的回答及其他智能体的上一轮回答，生成新的回应。最终答案由最后一轮所有智能体回答的多数投票决定。

根据Du et al.（2023）关于性能与效率平衡的研究结论，我们采用 $n=3$ 个智能体和 $m=2$ 轮交互。在更复杂的长上下文推理任务上训练时，增加智能体数量和轮数可能有所帮助，但在当前设置下，增加这些值所带来的收益微乎其微。

在数据收集上，我们使用GPT-3.5 turboBrown et al.（2020）作为智能体的基础模型。辩论使用的问题为包含六个随机生成的两位数的算术表达式（例如，$91+24*13+45-41*38$）。我们选择算术问题，因为它们答案简短，有助于聚焦于结构学习而非长篇推理，难度适中，且无需基准数据集。

在数据整理过程中，我们对生成的对话记录进行过滤，丢弃最后一轮中智能体未能达成多数共识的辩论。随后，在辩论日志中添加结构标签（例如，`<|Agent 1|>`、`<|Round 1|>`、`<|Consensus|>`、`<|endofdebate|>`），以创建统一的辩论格式。这些标签对于在SFT阶段教导模型学习辩论结构，以及在RL阶段提供针对性奖励至关重要。若没有结构标签，智能体间的区分将变得困难，给内化过程引入不必要的复杂性。这一点也在智能体子空间分析（第3节）中得到印证——缺少结构标签会导致子空间分离效果不佳。

我们共收集了944条辩论轨迹，每条由{问题, 轨迹, 答案}构成。辩论轨迹示例见附录图4。

### 2.2 辩论结构学习

利用收集到的辩论数据集，我们首先对基础LLM进行监督微调。该阶段的主要目的是训练模型模仿多智能体辩论的对话结构和格式。在这一初始微调阶段，我们不太关注最终生成答案的正确性，而更专注于模型学习辩论格式本身。该格式包括：多个智能体的回答生成、跨多轮对论点的迭代精炼，以及最终收敛至共识。

为此，我们在完整的辩论轨迹上训练模型（与其他仅在辩论最终输出上微调模型的工作不同；参见Subramaniam et al., 2025；Srivastava et al., 2025）。对于SFT，我们使用标准的自回归下一词元预测目标Wei et al.（2021）；Ouyang et al.（2022），训练模型最小化完整辩论轨迹上的交叉熵损失。微调后，模型能够在给定问题查询时，自主生成一段完整、结构化的辩论。这一过程有效地将外部多智能体辩论动态蒸馏至单个智能体中，为后续内化阶段奠定基础。

### 2.3 用于内化的强化学习

尽管SFT可以教导模型复现辩论格式，但它既不能保证生成正确答案，也不提供确保智能体在各轮中正确达成共识或相互对齐的机制。实际上，在GSM8KCobbe et al.（2021）上评估SFT智能体时，我们观察到智能体输出中出现了幻觉和不一致的情况，尽管数量极少（示例见附录E）。

为了解决这一问题并鼓励正确推理，我们采用强化学习作为第二个优化阶段。这种SFT+RL两阶段流水线已被Shao et al.（2024）；Guo et al.（2025）用于增强语言模型的能力和对齐性，但据我们所知，我们是首个将其应用于内化多智能体辩论的工作。

这一步骤具有两重目标：提高最终答案的正确性，并促进辩论过程的逐步内化。模型不再通过文本进行外部辩论，而是学习在内部进行辩论并更高效地产出最终答案。

我们使用群组相对策略优化（Group Relative Policy Optimization，GRPO）Shao et al.（2024）对上一阶段的模型 $\pi_\theta$ 进行微调。在每一步中，我们从策略 $\pi_\theta$ 为给定查询 $x$ 生成 $k$ 个候选输出。这些输出随后由奖励函数打分，所有奖励不同的输出对被即时构建成偏好数据集，用于更新策略。

对于查询 $x$ 和模型输出 $y$（包含辩论轨迹和最终答案），我们将奖励函数定义为：

$$r(x,y) = w_{fmt}R^{fmt} + w_{clip}R(y;l) \tag{1}$$

我们的奖励函数包含两个具有动态权重的关键组件。第一个是格式奖励（$R^{fmt}$），若生成的输出包含我们在数据集中定义的结构标签（例如，`<|Agent 1|>`、`<|Round 1|>`、`<|endofdebate|>`），则给予简单的正向分数。该奖励通过简单的词元匹配实现，确保模型最初遵守SFT阶段学到的辩论格式。然而，由于我们的最终目标是内化，该奖励的权重 $w_{fmt}$ 被安排在训练过程中逐渐衰减，从而逐步降低模型产出显式冗长辩论结构的动机。

第二个也是更为关键的组件是带长度裁剪的正确性奖励 $R(y;l)$。该机制受到一项近期工作的启发，该工作通过在训练期间逐步缩短长推理链来内化推理过程Hou et al.（2025）。我们将该奖励定义为：

$$R(y;l) = \begin{cases} 1, & \text{若 } y^* \in \text{clip}(y,l) \\ 0, & \text{否则} \end{cases} \tag{2}$$

其中，$\text{clip}(y,l)$ 是将模型输出序列 $y$ 截断为前 $l$ 个词元的函数。只有当正确的最终答案（$y^*$）出现在截断后的前缀中时，才给予1的奖励。这一设置对模型产生优化压力，迫使其尽早在生成内容中给出正确答案。

然而，若从训练一开始就设置严格的长度限制 $l$，可能会产生负面影响，阻碍模型探索推理空间。因此，我们采用长度退火策略，在训练过程中逐步降低长度限制：从初始的宽松值 $l^0$（允许完整的辩论语言化）逐步降至最终目标限制 $l^*$（仅留有简洁答案的空间）：$l^0 \rightarrow l^1 \rightarrow \cdots \rightarrow l^*$。

最终，这两种动态奖励的相互作用引导智能体从显式辩论过渡到隐式推理。衰减的格式奖励（$w_{\text{fmt}} \rightarrow 0$）消除了将辩论结构语言化的动机，而逐渐缩短的长度限制（$l^0 \rightarrow l^*$）使得在获得正确性奖励的同时进行完整辩论语言化变得不可能。模型唯一可行的策略，是将SFT阶段学到的多视角分析在内部完成——即在潜在空间中进行——然后直接生成最终答案。

**表1：** IMAD在高效的同时优于显式辩论。数字表示三次运行中每题的平均准确率（%）和词元消耗量（输入+输出）。IMAD与多智能体辩论（Debate）相比表现相当或更优，同时消耗的词元大幅减少（仅为6-21%）。

### 2.4 实验