解决多智能体系统中的信用分配问题(CANTANTE框架)
摘要
CANTANTE 是一个开源框架,通过将系统级奖励转换为每个智能体的更新信号来解决多智能体系统中的信用分配问题,在编程和数学推理基准测试上优于基于 DSPy 的基线。
大家好,如果你正在构建多智能体架构,很可能遇到过级联失败问题:你调整一个智能体的提示来修复一个特定的边缘情况,重新运行流水线,结果下游智能体突然崩溃或行为异常。这里的结构性瓶颈是 **信用分配**。
在多智能体循环中,性能奖励通常仅在系统级别观察到(例如,最终输出是否满足用户请求?)。然而,控制该行为的参数存在于单个、局部的智能体内部。如果不知道哪个特定智能体对最终全局结果有正面或负面贡献,自动化系统更新就极其困难。
**CANTANTE** 是一个开源框架,旨在通过将系统级奖励转换为每个智能体的更新信号来解决此问题。
# 工作原理
CANTANTE 不是将智能体流水线视为单个黑箱,而是通过四个步骤隔离智能体的贡献:
1. **生成:** 本地优化器为单个智能体提出提示配置。
2. **评估:** 在相同的查询上评估这些配置,以捕获显式推理轨迹和系统级分数。
3. **归因:** 归因器分析并对比这些运行结果,根据每个智能体的性能贡献分离并分配一个独特的信用分数。
4. **优化:** 将这些每个智能体的信号反馈给本地优化器(我们使用 CAPO,来自 AutoML 2025 的提示优化器),以迭代优化提示。
# 基准性能
我们在多个智能体基准上评估了 CANTANTE 与基于 DSPy 的最先进解决方案(GEPA 和 MIPROv2)的对比:
* **MBPP(编程):** 以 **+18.9 分** 击败最强基线。
* **GSM8K(数学推理):** 以 **+12.5 分** 优于基线。
* **效率:** 与未优化的基线提示相比,保持标准推理时间成本——无需大量代币或延迟开销即可获得性能提升。
作为一名研究智能体系统 AutoML 的独著博士生,将这项工作取得显著超越工业实验室基线的成果经历了巨大的努力。整个框架完全开源且免费使用。我很想听听你现在是如何处理多智能体设置中的优化和评估的。
相似文章
CANTANTE:通过对比信用分配优化智能体系统 [R]
CANTANTE 引入了一种对比信用分配方法,通过将全局奖励分解为每个智能体的信号,优化多智能体 LLM 系统,从而实现自动化提示调优。在编程、数学和检索基准测试中,它超越了基线方法,在不增加推理成本的情况下实现了最高 +18.9 分的提升。
通过反事实推理路径减少信用分配方差
提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。
多智能体计算机使用
本文提出了一种多智能体计算机使用 (MACU) 系统,该系统使用管理者模型将任务分解为有向无环图,供子智能体并行执行。在多个基准测试上,它相比单智能体基线有一致的改进,并展现出更好的测试时扩展能力。
COAgents:用于学习和导航路径规划问题搜索空间的多智能体框架
COAgents是一个合作式多智能体框架,用于解决车辆路径问题,它将搜索过程建模为图,使用专门智能体进行节点选择、移动选择和跳跃以逃离局部最优。在CVRP和VRPTW基准测试上取得了最先进的结果,相比先前的基于学习的方法,将最佳已知解差距最多缩小了44%。
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。