AgentPSO：通过多智能体粒子群优化进化智能体推理技能

arXiv cs.AI 2026/05/12 04:00 论文

摘要

AgentPSO 是一种受粒子群算法启发的框架，通过将智能体视为以自然语言技能为状态的粒子，来进化多智能体推理能力。它在无需更新基础语言模型参数的情况下，提升了在推理基准测试上的性能。

arXiv:2605.08704v1 公告类型：新论文摘要：多智能体推理通过允许多个智能体探索多样化的推理路径，展现了提升大型语言模型问题解决能力的潜力。然而，大多数现有的多智能体方法依赖于推理时的辩论或聚合，这容易受到错误同伴影响和有偏共识的影响。此外，智能体本身保持静态，因为它们的基础推理技能在任务间不会进化。在本文中，我们介绍了 AgentPSO，这是一种受粒子群算法启发的用于进化多智能体推理技能的框架。AgentPSO 将每个智能体视为类粒子的推理者，其状态为自然语言技能，速度为语义更新方向，迭代地将智能体推向更强的技能状态，以提升个体和集体的推理性能。在训练迭代过程中，每个智能体通过结合其先前的速度、个人最佳技能、全局最佳技能以及从同伴推理轨迹中得出的自我反思方向来更新其技能。这使得智能体能够从自身经验和群体中发现的最强技能中学习可重用的推理行为，而无需更新基础语言模型的参数。在数学和通用推理基准上的实验表明，AgentPSO 优于静态单智能体技能和仅推理时的多智能体推理基线。进化后的技能进一步跨基准迁移到另一个基础模型，这表明 AgentPSO 捕捉到了可重用的推理过程，而不仅仅是优化特定基准的提示词。代码已在 https://github.com/HYUNMIN-HWANG/AgentPSO/ 开源。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:21

# 通过多智能体粒子群优化演进智能体推理技能

来源: https://arxiv.org/html/2605.08704

Hyunmin Hwang* Jaemin Kim* Choonghan Kim Hangeol Chang Jong Chul Ye*

*同等贡献*

韩国科学技术院 (KAIST)
{hyunmin_hwang, kjm981995, choonghankim, hangeol, jong.ye}@kaist.ac.kr

###### 摘要

多智能体推理通过允许多个智能体探索多样化的推理路径，在提升大型语言模型的问题解决能力方面展现出潜力。然而，大多数现有的多智能体方法依赖于推理时的辩论或聚合，这些方法容易受到不正确的同伴影响和有偏共识的影响。此外，智能体本身是静态的，因为它们的基础推理技能在不同任务之间不会进化。在本文中，我们介绍了 **AgentPSO**，这是一种受粒子群优化启发的框架，用于演进多智能体推理技能。AgentPSO 将每个智能体视为类粒子的推理器，其状态为自然语言形式的技能，速度为语义更新方向，通过迭代移动智能体趋向更强的技能状态，从而提升个体和集体推理性能。在训练迭代过程中，每个智能体通过结合其先前速度、个人最佳技能、全局最佳技能以及从同伴推理轨迹中推导出的自我反思方向来更新其技能。这使得智能体能够从自身经验以及群体中发现的最强技能中学习可复用的推理行为，而无需更新基础语言模型的参数。在数学和通用推理基准上的实验表明，AgentPSO 优于静态单智能体技能和仅在测试时进行的多智能体推理基线。演进后的技能进一步在不同基准和另一个基础模型之间迁移，表明 AgentPSO 捕捉的是可复用的推理程序，而不仅仅是优化特定基准的提示。代码已在 https://github.com/HYUNMIN-HWANG/AgentPSO/ 开源。

## 1 引言

> “群体表现出非凡的智力，并且往往比其中最具智慧的人更聪明。” —— James Surowiecki,《群体的智慧》Surowiecki (2004)

大型语言模型 (LLMs) 在解决复杂推理问题方面取得了显著进展 OpenAI (2026); Achiam et al. (2023); Anthropic (2026); DeepSeek-AI (2025)，但其表现仍然高度依赖于提示方式以及被指令使用的推理技能 Weiet al. (2022); Zheng et al. (2024); Yao et al. (2023); Wang et al. (2023); Madaan et al. (2023); Zhou et al. (2023a)。由于手动识别最佳提示和智能体技能是一项劳动密集型的任务，最近的工作越来越多地探索通过迭代优化自动改进提示、策略或推理行为的方法 Prasad et al. (2022); Zhou et al. (2023b); Yang et al. (2024); Khattab et al. (2024); Azim et al. (2025); Fernando et al. (2024); Agrawal et al. (2026); Zhou et al. (2026)。然而，大多数提示优化和自我进化方法仍然集中在改进单个智能体、提示或管道上，而不是演进一组特定于智能体的技能。单个智能体通常通过反思其自身输出、修订其自身提示或积累其自身经验来改进，这可能会限制探索的多样性，并导致受模型固有偏差和内部知识约束的局部最优 Huang et al. (2023)。这促使使用多智能体系统，其中多个智能体提供超出单个智能体自包含进化局限性的多样化推理视角。通过相互批评并展示替代解决方案路径，多智能体系统实现了推理空间的更广泛探索 Du et al. (2023); Lin and Hooi (2025); Liu et al. (2025a, 2024)。

然而，现有的多智能体范式主要依赖于推理时的协作，例如多轮辩论，这容易受到不正确的同伴影响、有偏共识以及巨大的计算开销的影响 Kaesberger et al. (2025); Cui et al. (2026); Wen et al. (2025)。关键的是，虽然这些方法改进了当前讨论的结果，但它们并没有演进智能体本身，也没有使它们能够从之前的交互中内化可复用的推理技能。基于记忆的方法通过存储和检索之前交互中的过往教训部分解决了这一局限性 Liu et al. (2025b); Ling et al. (2025)。然而，这些方法主要在推理时复用外部化的经验或特定任务的经验教训，而不是直接更新智能体的基础推理技能。因此，它们在基准之间转移通用推理行为的能力有限。

这引出了我们工作的核心问题：**多智能体系统能否通过集体交互迭代地演进其基础推理技能，而不仅仅是对单个实例的输出进行优化？**

为了解决这个问题，我们提出了 **AgentPSO**，这是一个新颖的框架，将多智能体演进视为受粒子群优化 (PSO) Kennedy and Eberhart (1995) 启发的动态优化问题。在我们的框架中，每个智能体被视为一个粒子，其速度 $v$ 捕捉技能细化的方向。在每次迭代中，智能体利用其个人最佳技能 $p$ 和全局最佳技能 $g$ 来更新其技能。通过这种群体引导的更新，AgentPSO 利用了群体发现的优势技能，同时保持了多样化的、特定于智能体的改进轨迹。然而，直接将标准 PSO 规则应用于智能体演进是不够的，因为智能体可能会朝着高性能技能状态移动，而没有获得使其有效的推理原则 Freitas et al. (2020); Gad (2022); Zhang et al. (2019)。因此，AgentPSO 在更新规则中引入了自我反思方向 $d$。每个智能体不是简单地复制更强同伴的提示或技能，而是分析同伴的推理轨迹，并从他们的解决问题过程中提取可复用的教训。这种反思机制允许智能体内化超越个体任务实例的程序化推理模式。经过多次迭代，群体从一组异质的初始智能体演变为一个集体更强的群体。在测试时，演进后的智能体独立解决问题，并通过多数投票聚合答案，在不进行昂贵的多轮交互的情况下实现强大性能。

我们在数学和通用推理基准上评估了 AgentPSO，包括 DeepMath 和 BigBenchHard。我们的实验表明，AgentPSO 优于单智能体提示方法和基于辩论的多智能体基线。进一步的分析显示，演进的技能在不同基准之间迁移，随着迭代逐步改进，并且极大地受益于自我反思方向。我们的贡献总结如下：

*   我们介绍了 **AgentPSO**，这是一个受 PSO 启发的框架，通过个人最佳、全局最佳和自我反思方向更新智能体，从而演进多智能体推理技能。
*   我们证明 AgentPSO 实现了智能体能力的持久演进，在不需进行昂贵的测试时辩论的情况下，取得了比单智能体和基于辩论的多智能体基线更强的性能。
*   我们证明演进的技能在不同基准之间迁移，表明 AgentPSO 学习的是通用推理行为，而不仅仅是记忆特定任务的知识。

![Figure 1: AgentPSO 概览。每个智能体独立地用其当前技能解决训练批次，生成答案和推理痕迹。同伴观察总结了其他智能体的推理痕迹和正确性，从中每个智能体推导出自我反思方向以改进技能。该方向通过与个人最佳和全局最佳技能的引导相结合，通过类 PSO 更新进行整合。](caption)

## 2 相关工作

#### 多智能体协作方法

个体语言模型在探索多样化推理轨迹方面的能力往往有限 Huang et al. (2023)，这促使多智能体协作，其中智能体交换信息并共同完善其解决方案。 prior work has shown that multi-agent debate can improve reasoning by enabling agents to critique one another and expand the space of possible solutions Du et al. (2023); Liu et al. (2025a). To make such collaboration more reliable, later studies introduced richer interaction and evaluation schemes, including confidence-aware interaction Lin and Hooi (2025), multidimensional assessment Feng et al. (2025), cross-agent reward signals Xue et al. (2025), and tournament-style comparison Fu et al. (2026). Other approaches augment collaboration with external memory, allowing agents to retrieve lessons from prior debates for future tasks Liu et al. (2024, 2025b). Despite these advances, existing methods still face two major limitations. First, debate-centric collaboration remains vulnerable to negative peer influence Kaesberger et al. (2025); Cui et al. (2026); Wen et al. (2025) and incurs substantial inference-time overhead. Second, these systems remain largely static, since agents may interact during problem solving but their underlying capabilities are not directly improved across tasks. By contrast, we formulate multi-agent collaboration as a process of agent skill evolution, where agents improve by learning from one another’s reasoning trajectories.

#### 语言模型中的自我演进

Recent research has increasingly aimed to make language models self-evolving by iteratively adapting their behavior to better fit a target task Gao et al. (2025). Early efforts focus on prompting, where task-relevant reasoning depends heavily on the prompts provided to the model Wei et al. (2022); Madaan et al. (2023); Khot et al. (2023); Shinn et al. (2023). Subsequent works therefore explore prompt optimization to automatically discover more effective prompts Prasad et al. (2022); Zhou et al. (2023b); Yang et al. (2024); Khattab et al. (2024); Azim et al. (2025); Fernando et al. (2024); Agrawal et al. (2026). More recent studies further extend this line of research from prompt optimization to the iterative refinement of reasoning structures, workflows, agent architectures, and externalized skills through feedback and self-improvement Zhou et al. (2024); Su et al. (2025); Hu et al. (2024); Zhang et al. (2026); Xue et al. (2025); Almansoori et al. (2025); Wei et al. (2025); Wang et al. (2025b); Zhou et al. (2026). Our method follows this direction, but focuses on population-level multi-agent skill evolution rather than optimizing a single component, such as a prompt, agent, or pipeline. Specifically, each agent updates its own skill based on its current state, a self-reflective update direction, its personal-best skill, and the global-best skill discovered across the population.

#### 粒子群优化

We interpret multi-agent skill evolution through the lens of Particle Swarm Optimization (PSO) Kennedy and Eberhart (1995), in which each particle is updated based on its current state, its personal best, and the swarm’s global best. PSO has been widely applied to diverse optimization problems, including in language model optimization Shinohara et al. (2025); Gad (2022). We extend this perspective to multi-agent evolution by treating each agent as a particle-like reasoner with an evolving skill state. Each agent is thus guided by both its own personal-best skill and the strongest skill discovered across the population, enabling improvement at both the individual and collective levels. However, standard PSO alone can be limited on complex search problems, where effective exploration remains difficult Freitas et al. (2020); Zhang et al. (2019). To address this limitation, our method extends the PSO-style update with a self-reflective *semantic* direction term by exploiting LLM’s capability, encouraging broader exploration while steering agents toward better skill configurations.

## 3 问题设定

我们考虑由 $N$ 个 LLM 智能体组成的群体 $A=\{A_1, A_2, \dots, A_N\}$，它们在解决问题的迭代过程中共同演进其推理技能。在第 $t$ 次迭代中，每个智能体 $A_i$ 具有当前技能状态 $s_i^t \in \mathcal{S}$，其中 $\mathcal{S}$ 表示有效技能状态的空间。

相似文章

EvoScientist：面向端到端科学发现的多智能体进化AI科学家

Papers with Code Trending

EvoScientist 是一个用于端到端科学发现的自适应多智能体框架，通过持久化记忆模块持续改进，由三个专业智能体组成，分别负责创意生成、实验执行和知识提炼。它在科学创意生成方面超越了7个当前最先进的系统，并通过多智能体进化提升了代码执行成功率。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

AgentPSO：通过多智能体粒子群优化进化智能体推理技能

相似文章

EvoScientist：面向端到端科学发现的多智能体进化AI科学家

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Agent S2：一种面向计算机使用智能体的组合式通才-专才框架

TMAS：通过多智能体协同扩展测试时计算

EvoMaster：构建可进化大规模自主科学智能体的基础框架

提交意见反馈