工具即连续流:用于演进式智能体推理

arXiv cs.AI 论文

摘要

本文介绍了 FlowAgent,这是一个新颖的框架,它利用条件流匹配将工具链重新概念化为连续轨迹生成,以提高长时序智能体推理的鲁棒性。

arXiv:2605.07339v1 公告类型:新文章 摘要:大型语言模型(LLM)在协调工具以执行推理任务方面展现了卓越的能力。然而,现有方法依赖于缺乏全局视角的逐步范式,这导致在长时序中误差累积,并限制了其对未见工具的泛化能力。为了克服这些局限性,我们提出了用于演进式智能体推理的工具即连续流(FlowAgent),该框架在语义空间内将工具链重新概念化为连续轨迹生成。为了系统地评估这一范式,我们引入了首个专门针对动态现实环境中计划级智能体推理的计划级闭环基准测试。具体而言,所提出的 FlowAgent 利用条件流匹配生成连续潜空间轨迹,提供全局规划视角以确保工具执行的一致性和鲁棒性。在理论上,我们建立了效用收敛的形式化界限,并证明我们的连续公式从根本上保证了鲁棒的泛化能力和误差衰减。实证评估表明,FlowAgent 在长时序推理任务中实现了 superior 的鲁棒性和适应性。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:17

# Tools as Continuous Flow for Evolving Agentic Reasoning

**来源**: https://arxiv.org/html/2605.07339

Tairan Huang${}^{1,\dagger}$, Siyu Shang${}^{1,\dagger}$, Qiang Chen${}^{2,\ddagger}$, Xiu Su${}^{1,\ddagger}$, Yi Chen${}^{2,\ddagger}$

${}^{1}$中南大学 ${}^{2}$香港科技大学
[email protected], [email protected], [email protected], [email protected], [email protected]

> **摘 要**
>
> 大型语言模型(LLMs)在编排工具以执行推理任务方面展现出了卓越的能力。然而,现有方法依赖于缺乏全局视角的分步范式,这导致在长视野任务中出现误差累积,并限制了对未见工具的泛化能力。为了克服这些局限性,我们提出了 **Tools as Continuous Flow for Evolving Agentic Reasoning (FlowAgent)**,该方法将工具链式调用重新概念化为语义空间内的连续轨迹生成。为了系统评估这一范式,我们引入了首个专门针对动态真实环境中计划级智能体推理的闭环基准测试。具体而言,提出的 FlowAgent 利用条件流匹配(conditional flow matching)生成连续的潜在轨迹,提供全局规划视角,以确保工具执行的连贯性和鲁棒性。在理论上,我们建立了效用收敛的形式化界限,并证明了我们的连续公式从根本上保证了鲁棒的泛化能力和误差衰减。实证评估表明,FlowAgent 在长视野推理任务中实现了优越的鲁棒性和适应性。我们的代码和数据集可在 [https://github.com/ssy166/FlowPlan](https://github.com/ssy166/FlowPlan) 获取。

---

## 1 引言

大型语言模型(LLMs)已演变为能够利用外部工具的强大约智能体。通过与搜索引擎和 API 交互,这些模型将其推理扎根于真实环境之中 [1, 2, 3, 4]。这一范式允许智能体执行复杂操作,并显著将其效用扩展到静态文本生成之外 [5, 6]。因此,它们越来越多地被部署用于自动化需要顺序逻辑和动态环境交互的复杂工作流 [7, 8, 9, 10]。

最近的方法将工具规划表述为离散动作空间上的自回归生成任务 [11, 12, 13, 14]。在每一步中,智能体观察当前上下文,评估可用选项,并明确选择要执行的工具。几种方法结合了强化学习算法 [15, 16] 或复杂的提示策略 [17, 18],以基于任务特定的奖励来优化这些顺序决策。尽管采用了这些优化来提高单步准确性,但其根本决策过程仍然深深植根于逐个 token 生成的范式中。

![Figure 1](https://arxiv.org/html/2605.07339#S1.F1)
**图 1:** (a-c) 当前离散工具推理范式基本局限性的概念插图:缺乏全局视角、严重的误差累积以及对未见工具泛化能力差。如 (d) 所示,传统分步范式在计划级基准测试中的表现不足,凸显了向全局计划级推理范式转变的迫切需求。

如图 1 所示,这些分步范式在处理复杂场景时表现出根本性局限 [1]:

1.  **缺乏全局视角**:现有方法明确优化局部工具选择,但缺乏整体规划,未能将这些孤立的步骤与总体任务目标整合起来。
2.  **严重的误差累积**:在长视野任务中,短视的执行策略变得脆弱。单个次优的工具选择会破坏随后的推理链,导致执行失败迅速复合放大。
3.  **对未见工具泛化能力差**:通过将工具视为孤立的类别标签,现有模型无法捕捉底层的功能相似性,从而在泛化到新颖工具集时 struggle。

为了解决这些固有限制,我们提出了 **FlowAgent**,这是一种新颖的范式,通过将离散工具链式调用重新概念化为语义空间内的连续轨迹生成,从根本上从短视的分步选择转变为全局计划级推理。为了系统评估这一范式,我们引入了首个专门针对动态真实环境中计划级智能体推理的闭环基准测试。具体而言,提出的 FlowAgent 将多步规划表述为由专家演示监督的连续轨迹演化,提供全局规划视角以确保推理的连贯性。随后,这些潜在计划在闭环执行方案中被转换为精确的离散动作,该方案动态吸收环境反馈,并将整个过程明确对齐到最优的计划级效用。在理论上,我们建立了效用收敛的形式化界限,并从数学上证明我们的连续公式保证了语义驱动的工具泛化和基本的误差衰减。

本工作的贡献总结如下:

*   **计划级基准测试**:我们引入了首个专门针对动态真实环境中计划级智能体推理的计划级闭环基准测试。通过整合多样化的真实世界领域,该设置系统地评估了在多步执行期间动态吸收环境反馈的能力。
*   **新颖范式**:我们提出了 FlowAgent,这是一种用于演进智能体推理的新颖范式。FlowAgent 通过条件流匹配,将离散工具链式调用重新概念化为语义空间内的连续轨迹生成,将决策过程从短视的分步选择转变为全局计划级推理。
*   **理论基础**:我们提供了一个严谨的数学框架,建立了计划效用收敛和对未见工具泛化的显式界限。此外,我们正式证明我们的闭环执行方案在长视野推理任务中严格衰减误差累积。
*   **实证优越性**:广泛的实验表明,FlowAgent 显著优于基线方法,在长视野任务中表现出卓越的鲁棒性,并适应未见工具集。

![Figure 2](https://arxiv.org/html/2605.07339#S2.F2)
**图 2:** FlowAgent 的整体框架,它将离散工具链式调用重新概念化为连续轨迹生成,从而从短视的分步选择转向计划级推理。

## 2 相关工作

**基于 LLM 的工具推理**。LLM 智能体的有效性在很大程度上依赖于其与外部工具交互的能力 [19, 20]。早期的范式试图通过明确的提示工程 [21, 22] 或将思维链推理与 API 调用交错 [23, 24] 来缓解这一问题。最近的进展已转向自主工具集成 [25, 26, 27],形式化了多样 API 的选择和执行。ToolRL [11] 将工具使用概念化为交互式决策过程,允许智能体通过来自环境反馈的强化学习来优化顺序动作。然而,这些系统主要在离散动作空间内运行,将工具规划视为孤立的类别选择,而非全局连贯的轨迹。相比之下,FlowAgent 将离散工具链式调用重新概念化为语义空间内的连续轨迹生成,将决策过程从短视的分步选择转变为全局计划级推理,以解锁对未见工具集的鲁棒适应性。

**LLM 智能体规划**。LLM 智能体规划对于将复杂目标分解为可执行的子任务至关重要,而简单的自回归生成通常无法保持长期连贯性 [28, 29, 30, 31]。早期方法侧重于线性推理链 [32, 33] 或迭代自我修正 [34, 35],以基于内部启发式方法优化输出。最近的研究已转向复杂的基于搜索的架构,以探索和评估多个推理分支 [36, 37]。此外,专门的规划器 [38, 39] 在执行过程中纳入环境反馈以调整规划轨迹。然而,这些方法根本上依赖于分步框架内的离散搜索,这在长视野推理中仍然容易受到级联误差累积的影响。相比之下,FlowAgent 通过生成连续轨迹,避开了短视离散搜索的局限性,促进了保持结构连贯性的全局计划级推理。

## 3 方法论

### 3.1 问题定义与形式化

**环境、状态与工具表示**。考虑一个在离散阶段 $h \in \{1, \dots, H\}$ 演进中的智能体推理任务。在阶段 $h$,系统维护一个可用工具集 $T_h = \{t_1, \dots, t_{|T_h|}\}$,该工具集随时间动态演进。为了实现未见工具的泛化,每个工具 $t \in T_h$ 由连续语义嵌入 $e_t \in \mathbb{R}^d$ 参数化,联合编码其功能描述和使用约束。我们将阶段 $h$ 的上下文状态定义为 $c_h$。

**闭环规划目标**。由于工具输出不可避免地会改变随后的环境配置,我们明确形式化了一个闭环执行范式。在接收到来自已执行工具 $\hat{t}_h$ 的观察值 $o_h$ 后,上下文状态通过算子 $\mathcal{U}$ 确定性更新:

$$
c_{h+1} = \mathcal{U}(c_h, \hat{t}_h, o_h). \tag{4}
$$

与刚性执行长视野链的开环规划器不同,我们的系统根据更新后的状态动态重采样潜在计划:

$$
P_{h+1} \sim q_\phi(P | c_{h+1}). \tag{5}
$$

因此,所提出的方法根本上是作为后退地平线潜在计划生成器运行,防止早期阶段的规划错误与实时反馈相复合。

### 3.2 条件流规划器

我们定义 $s \in [0, 1]$ 为连续规划时间。给定当前上下文状态 $c_h$,潜在计划路径 $z(s)$ 的演进由由条件速度场 $v_\phi$ 驱动的常微分方程(ODE)控制:

$$
\frac{dz(s)}{ds} = v_\phi(z(s), s | c_h), \quad z(0) \sim p_0, \tag{6}
$$

其中 $p_0$ 代表一个简单的先验分布。通过数值积分速度场,我们获得一条连续轨迹,从中提取一系列 $L_h$ 个潜在计划锚点:

$$
P_h = (z_h^{(1)}, z_h^{(2)}, \dots, z_h^{(L_h)}). \tag{7}
$$

每个锚点 $z_h^{(l)} \in \mathbb{R}^d$ 作为连续语义指令,指导后续的离散工具映射过程。这一公式明确生成了潜在空间中未来工具计划的连续演化轨迹,而不仅仅是预测下一个单步工具。

### 3.3 构建计划监督

训练条件流规划器需要由离散专家演示导出的连续目标轨迹。给定长度为 $m$ 的专家推理链,形式化记为 $\mathcal{T}^* = \{(r_1, t_1, o_1), \dots, (r_m, t_m, o_m)\}$,我们为每个离散步骤 $j \in \{1, \dots, m\}$ 构建一个密集的潜在计划状态 $y_j \in \mathbb{R}^d$:

$$
y_j = W_t e_{t_j} + W_r \text{Enc}(r_j) + W_o \text{Enc}(o_{j-1}) + W_p \nu_j, \tag{8}
$$

其中 $o_{j-1}$ 表示上一步的观察值,$e_{t_j}$ 表示语义工具嵌入,$\text{Enc}(\cdot)$ 表示推理和观察值的潜在编码器,$\nu_j$ 是学习阶段嵌入,分类操作阶段,$W_{\{t,r,o,p\}}$ 是投影矩阵。此提取产生一系列离散潜在锚点 $\mathcal{Y} = (y_1, y_2, \dots, y_m)$。

为了对归一化时间 $s \in [0, 1]$ 上的连续流范式制定回归目标,我们基于时间步 $s_j = \frac{j-1}{m-1}$ 通过分段线性插值构建连续目标路径 $y(s)$:

$$
y(s) = y_j + \frac{s - s_j}{s_{j+1} - s_j}(y_{j+1} - y_j), \quad \forall s \in [s_j, s_{j+1}]. \tag{9}
$$

这一数学构造的连续轨迹 $y(s)$ 充当显式回归目标,为学习条件速度场提供确定性的阶段转换监督。

### 3.4 离散解码与执行

为了将连续潜在计划实例化为可执行动作,框架将生成的潜在锚点 $z_h^{(l)}$ 映射到动态演进的离散工具空间 $T_h$。根据计划级目标中定义的基于距离的概率分布,步骤 $l$ 执行的具体工具通过采样确定:

$$
\hat{t}_h^{(l)} \sim p_\phi(t | z_h^{(l)}, T_h). \tag{10}
$$

为了控制执行长度并防止逻辑过度生成... *(注:原文在此处截断)*

相似文章

通过结构化元认知在通用智能体中实现深度推理

arXiv cs.CL

本文介绍了深度推理(Deep Reasoning),这是一种在推理阶段利用结构化元推理为通用智能体构建特定任务脚手架的方法。提出的智能体 Dolores 通过将认知分配到低负载的推理线程中,减少了幻觉并提升了在多个基准测试上的表现,优于现有方法。

CoCoDA:用于工具增强型智能体的协同演化组合式 DAG

arXiv cs.AI

本文介绍了 CoCoDA,这是一个利用协同演化的组合式有向无环图(DAG)来管理增强型智能体工具库的框架。该框架使小型语言模型能够高效地检索和组合工具,从而使 8B 模型在推理基准测试上的性能能够匹敌甚至超越 32B 模型。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。