自适应潜在智能体推理

arXiv cs.CL 论文

摘要

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。

arXiv:2606.02871v1 公告类型:新 摘要:大型推理模型通过生成扩展的思维链(CoT)推理来提升性能,但这一行为在应用于LLM智能体时变得低效。当前的LLM智能体通常在每个决策步骤生成冗长的文本推理,并在各轮次间几乎均匀分配推理投入,导致多轮智能体轨迹中效率大幅降低。我们提出自适应潜在智能体推理(ALAR),一种双模式框架,它使用紧凑的潜在推理处理常规轮次,并在需要更深层思考时选择性地升级为显式思维链。ALAR通过将智能体的行动作为监督锚点来学习潜在推理,并进一步优化,在潜在推理足以完成任务时使用它,保留显式CoT用于更困难的决策。在智能体搜索和工具使用基准上的实验表明,ALAR在保持相当或更好任务准确性的同时,大幅减少了生成的令牌,搜索中减少高达43.6%,工具使用中减少84.6%。这些结果表明,ALAR通过减少不必要的文本推理,同时保留对更困难决策步骤的显式思考,改善了LLM智能体的准确性-效率权衡。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:35

# 自适应潜在代理推理  
**来源**: https://arxiv.org/html/2606.02871  

Dongwon Jung¹, Peng Shi², Yi Zhang³, Junshan Zhang¹, Muhao Chen¹  
¹加州大学戴维斯分校  
²滑铁卢大学  
³Greenshoe, Inc.  
{dwojung, jazh, muhchen}@ucdavis.edu  
[email protected]  
[email protected]  

**摘要**  
大型推理模型通过生成扩展的思维链(CoT)推理提升了性能,但这种行为在应用于LLM代理时变得低效。当前的LLM代理往往在每个决策步骤生成冗长的文本推理,并在各轮次间几乎均匀分配推理努力,导致多轮代理轨迹中产生大量效率损失。我们提出**自适应潜在代理推理**(ALAR),一种双模式框架,对常规轮次使用紧凑的潜在推理,并在需要更深思熟虑时选择性升级为显式思维链。ALAR通过使用代理的动作作为监督锚点来学习潜在推理,并进一步优化,使其在足以完成任务时使用潜在推理,而在更困难的决策中保留显式CoT。在代理搜索和工具使用基准上的实验表明,ALAR在保持相当或更好任务准确性的同时,大幅减少了生成令牌数:搜索任务中最多减少43.6%,工具使用任务中最多减少84.6%。这些结果表明,ALAR通过减少不必要的文本推理,同时为更困难的决策步骤保留显式思考,改善了LLM代理的准确性与效率权衡。

**自适应潜在代理推理**  
Dongwon Jung¹, Peng Shi², Yi Zhang³, Junshan Zhang¹, Muhao Chen¹  
¹加州大学戴维斯分校  
²滑铁卢大学  
³Greenshoe, Inc.  
{dwojung, jazh, muhchen}@ucdavis.edu  
[email protected]  
[email protected]  

## 1 引言

近年来,大型推理模型(LRM)的进展表明,扩展的思维链(CoT)推理能够提升数学、逻辑和编码任务的性能(Jaech et al., 2024 (https://arxiv.org/html/2606.02871#bib.bib36); Guo et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib1))。在标准的单次推理设定中,推理主要面向答案生成,模型在产生最终响应前进行思考。相比之下,LLM代理将这一范式扩展到交互式环境,其中推理与动作(如检索、工具使用和环境交互)交织在一起(Yao et al., 2022 (https://arxiv.org/html/2606.02871#bib.bib37); Shinn et al., 2023 (https://arxiv.org/html/2606.02871#bib.bib38))。我们将每个决策步骤执行的计算称为**代理推理**(Wei et al., 2026 (https://arxiv.org/html/2606.02871#bib.bib10)):用于选择下一个动作、整合观察结果并决定何时终止的推理。然而,当前的LLM代理在很大程度上继承了单次LRM的推理行为。因此,它们常常生成冗长的CoT(Chen et al., 2024 (https://arxiv.org/html/2606.02871#bib.bib30)),即使下一个动作主要依赖于外部观察结果;并且它们在各轮次间几乎均匀分配推理努力,尽管推理需求存在显著差异。这种低效在多轮轨迹中会累积,因为早期轮次的推理令牌会不断增长到上下文中。因此,我们提出一个问题:如何使LLM代理在保持困难决策步骤所需思考的同时,更高效地推理?

请参照图注

**图1**: 传统的LRM在每个决策步骤生成冗长的CoT,在多轮代理轨迹中引入显著的低效性。ALAR默认使用紧凑的潜在推理,仅在需要更深层规划的轮次回退到显式CoT。

一种自然的方法是应用最近的推理令牌压缩方法,这些方法通过剪枝、长度预算或对更短正确解给予奖励来减少冗长的CoT(Luo et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib11); Hou et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib12); Yi et al., 2026 (https://arxiv.org/html/2606.02871#bib.bib13))。然而,这些方法仍然在显式CoT接口内运作,每个轮次都必须生成文本推理轨迹,效率只能通过缩短该轨迹来实现。这在代理设定中是有局限性的,因为许多轮次甚至不需要缩短的文本理由,只需要足够的内部计算来选择下一个与环境耦合的动作。因此,高效的代理推理需要一种比压缩显式CoT更结构性的改变。

一个有前景的替代方案是**隐式思维链**或**潜在推理**(Hao et al., 2024 (https://arxiv.org/html/2606.02871#bib.bib6); Shen et al., 2025b (https://arxiv.org/html/2606.02871#bib.bib7)),它用模型隐藏状态空间中的固定长度连续思维序列替换文本推理令牌。通过避免生成显式推理令牌,隐式CoT提供了一种紧凑的内部计算形式。然而,将隐式CoT扩展到代理设定带来了两个挑战。首先,训练潜在推理模式并非易事,因为连续思维存在于隐藏状态空间,可变长度的文本CoT不能作为直接的监督目标。此外,在代理中,每轮推理应支持中间动作选择,而不仅仅是最终答案生成。其次,模型不应均匀依赖潜在推理。相反,它必须保留在真正需要更深层推理的轮次升级到显式CoT的能力,以达到期望的性能水平。

为了解决这些挑战,我们引入了**自适应潜在代理推理**(ALAR),一种用于LLM代理的推理架构,默认使用潜在推理,仅在当前轮次需要更深层推理时升级到显式CoT。ALAR由两个组件组成。首先,**动作锚定自蒸馏**(AASD)在不对潜在状态进行直接监督的情况下训练潜在推理模式。AASD不是将潜在思维与文本CoT对齐,而是用潜在块替换每个教师的CoT跨度,并训练学生重现教师随后的动作。由于动作是代理与环境交互的点,它们为监督提供了自然锚点。其次,**自适应推理GRPO**(AR-GRPO)学习自适应模式选择:当潜在推理保持任务成功时给予奖励,同时鼓励在需要更详细推理的轮次使用显式CoT。

请参照图注

**图2**: ALAR在搜索和工具使用基准上实现了比推理令牌压缩基线更好的准确率-效率权衡。

我们在代理搜索和工具使用基准上,将ALAR与最近的推理令牌压缩基线进行了比较。如图2 (https://arxiv.org/html/2606.02871#S1.F2)所示,ALAR通过更积极地减少令牌数同时保持任务准确率,实现了更好的准确率-效率权衡。我们的贡献总结如下:

- 我们提出了ALAR,一个双模式框架,结合了潜在推理与自适应模式选择,使得LLM代理在足够时使用紧凑潜在推理,并在需要额外思考来选择动作的轮次升级到显式CoT。
- 我们提出了**动作锚定自蒸馏**(AASD),一种自蒸馏方法,通过用潜在块替换教师CoT跨度,并监督学生重现教师的下一个面向环境的动作,在无潜在状态监督的情况下训练潜在代理推理。
- 我们提出了**AR-GRPO**,一种强化学习方法,通过奖励在任务成功时使用潜在模式,并抑制不必要的显式CoT,来优化每轮推理模式选择。

请参照图注

**图3**: ALAR概述。在每个轮次,LRM自适应地选择潜在模式用于常规决策,或选择显式模式用于更难轮次。动作锚定自蒸馏通过使用教师的动作作为锚点来训练潜在模式。AR-GRPO进一步学习何时使用潜在推理,仅在任务成功时给予奖励。

## 2 相关工作

### 2.1 潜在推理

近期工作探索了潜在推理作为显式CoT的高效替代方案。早期方法训练模型将文本CoT内化或压缩成连续隐藏状态(Deng et al., 2024 (https://arxiv.org/html/2606.02871#bib.bib27); Hao et al., 2024 (https://arxiv.org/html/2606.02871#bib.bib6); Shen et al., 2025b (https://arxiv.org/html/2606.02871#bib.bib7); Cheng and Van Durme, 2024 (https://arxiv.org/html/2606.02871#bib.bib24))。更近期的混合方法通过切换、门控或令牌级混合来结合潜在推理和显式推理(Shi et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib25); Xu et al., 2026 (https://arxiv.org/html/2606.02871#bib.bib29); Yue et al., 2026 (https://arxiv.org/html/2606.02871#bib.bib28); Su et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib26))。这些方法主要针对单次推理任务,其中潜在计算用于生成最终答案。我们的设定不同之处在于,潜在推理是面向动作的、与环境耦合的,并且跨轮次重复,因此核心挑战不仅在于如何压缩推理,还在于如何在整个轨迹中分配推理模式。

### 2.2 推理令牌减少

为了缓解LRM中的过度思考(Chen et al., 2024 (https://arxiv.org/html/2606.02871#bib.bib30); Sui et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib35)),近期工作通过缩短显式CoT轨迹来减少推理成本。一类方法使用强化学习或微调奖励来鼓励简洁且正确的推理,并修剪冗余的思考步骤(Arora and Zanette, 2026 (https://arxiv.org/html/2606.02871#bib.bib33); Luo et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib11); Hou et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib12); Cheng et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib32))。另一类方法引入长度控制或难度自适应预算,允许模型根据用户指定的预算、采样的最优长度或问题难度来调整推理长度(Aggarwal and Welleck, 2025 (https://arxiv.org/html/2606.02871#bib.bib31); Yi et al., 2026 (https://arxiv.org/html/2606.02871#bib.bib13); Shen et al., 2025a (https://arxiv.org/html/2606.02871#bib.bib34))。尽管有效,这些方法仍然在文本CoT接口内优化效率。我们的工作则改变推理基质本身,使用潜在推理来绕过不必要的文本CoT,从而在多轮轨迹中实现更激进的令牌减少。

## 3 自适应潜在代理推理

为此,我们提出**自适应潜在代理推理**(ALAR),一种用于高效LLM代理的双模式推理框架。我们首先将LRM形式化为多轮代理策略(第3.1节 (https://arxiv.org/html/2606.02871#S3.SS1)),然后引入两个核心设计组件:**潜在代理推理**(第3.2节 (https://arxiv.org/html/2606.02871#S3.SS2))和**自适应模式选择**(第3.3节 (https://arxiv.org/html/2606.02871#S3.SS3))。接着,我们介绍两阶段优化过程:**动作锚定自蒸馏**(第3.4节 (https://arxiv.org/html/2606.02871#S3.SS4))学习潜在代理推理,以及AR-GRPO学习自适应模式选择(第3.5节 (https://arxiv.org/html/2606.02871#S3.SS5))。

### 3.1 LRM作为LLM代理

我们考虑一个由θ参数化的大型推理模型(LRM),它在每次输出前生成显式思维链(CoT)(Guo et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib1); Xiang et al., 2025 (https://arxiv.org/html/2606.02871#bib.bib4))。在代理设定中,这种“先推理后输出”的模式在多个与环境耦合的决策步骤中重复。具体来说,我们将LRM视为LLM代理的策略,该代理与工具环境在最多T轮中交互。给定查询x,在每轮t,代理生成显式CoT c_t ∼ π_θ(· | s_t),基于状态s_t(当前上下文)进行条件生成,然后输出动作a_t ∼ π_θ(· | s_t, c_t),该动作要么是工具调用,要么是最终响应。如果a_t是工具调用,环境返回观察o_t并将其追加到上下文;否则,回合终止。由此产生的轨迹为τ = (x, c_1, a_1, o_1, ..., c_T, a_T),其中a_T是最终响应。

### 3.2 潜在代理推理

该公式暴露了我们针对的主要低效问题:即使在下一个动作可能只需要轻量级内部计算时,每个轮次仍会生成显式CoT。潜在推理迄今为止主要被研究用于单次推理任务(Hao et al., 2024 (https://arxiv.org/html/2606.02871#bib.bib6); Shen et al., 2025b (https://arxiv.org/html/2606.02871#bib.bib7)),其中连续思维在生成最终答案前替换了CoT。我们将这一思想适应于多轮代理推理,其中推理扮演着不同的角色:在每个中间轮次,代理进行推理以选择朝向长期目标的下一个动作,而不是直接产生最终答案。具体来说,在每轮t,代理不生成显式CoT c_t,而是生成一个固定长度的K个连续思维序列z_t = (z_t¹, ..., z_tᴷ)。从对应当前状态s_t的隐藏状态h_t⁰开始,每个潜在思维在隐藏状态空间中自回归地生成:z_tᵏ = f_φ(h_tᵏ⁻¹), k = 1, ..., K,其中f_φ是一个投影层,每个z_tᵏ作为下一个潜在位置的输入嵌入被反馈。生成潜在块后,代理采样下一个动作为a_t ∼ π_θ(· | s_t, z_t),其中a_t基于当前状态和潜在思维在词汇表V上解码。我们将这一过程称为**潜在代理推理**:代理通过潜在块而非离散CoT来执行隐式每轮计算。

### 3.3 自适应模式选择

尽管潜在代理推理对于常规轮次已经足够,但某些决策需要比固定长度潜在块所能容纳的更实质性的推理。因此,我们为代理配备每轮在潜在模式和显式模式之间选择的能力,模式直接从策略中采样:m_t ∼ π_θ(· | s_t), r_t ∼ π_θ(· | s_t, m_t),其中模式m_t ∈ {,}决定了每轮推理轨迹r_t的形式:在潜在模式下为潜在块z_t,在显式模式下为显式CoT c_t。然后从π_θ(· | s_t, r_t)中采样动作。令r_t ∈ {z_t, c_t}表示在所选模式下第t轮的推理轨迹,则产生的轨迹为τ = (x, m_1, r_1, a_1, o_1, ..., m_T, r_T, a_T)。由于m_t是从生成轨迹其余部分的同一策略中采样的,模式选择成为代理决策空间的一部分,而不是由外部编排器或路由器施加的选择。

### 3.4 动作锚定自蒸馏

Tr

相似文章

面向高效可控LLM推理的代理式思维链引导

Hugging Face Daily Papers

ACTS(代理式思维链引导)将LLM推理控制形式化为马尔可夫决策过程,其中控制器代理在推理过程中使用推理策略和引导短语自适应地引导冻结的推理器。该方法在显著节省token的同时实现了与完全思考模型相当的准确率,支持可控的准确率-效率权衡。

BALAR:一种用于主动推理的贝叶斯智能体循环

arXiv cs.AI

本文介绍了 BALAR,这是一种无需训练的贝叶斯智能体循环算法,使大型语言模型能够在多轮交互中进行主动推理并提出澄清性问题。该算法在侦探、谜题和临床诊断基准测试中显示出比基线方法显著的性能提升。

ATLAS:智能体还是隐式视觉推理?一个词足矣

Hugging Face Daily Papers

ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。