解决多智能体系统中的信用分配问题（CANTANTE框架）

Reddit r/AI_Agents 2026/05/20 12:00 论文

multi-agent credit-assignment auto-ml prompt-optimization open-source agentic-systems framework

摘要

CANTANTE 是一个开源框架，通过将系统级奖励转换为每个智能体的更新信号来解决多智能体系统中的信用分配问题，在编程和数学推理基准测试上优于基于 DSPy 的基线。

大家好，如果你正在构建多智能体架构，很可能遇到过级联失败问题：你调整一个智能体的提示来修复一个特定的边缘情况，重新运行流水线，结果下游智能体突然崩溃或行为异常。这里的结构性瓶颈是 **信用分配**。在多智能体循环中，性能奖励通常仅在系统级别观察到（例如，最终输出是否满足用户请求？）。然而，控制该行为的参数存在于单个、局部的智能体内部。如果不知道哪个特定智能体对最终全局结果有正面或负面贡献，自动化系统更新就极其困难。 **CANTANTE** 是一个开源框架，旨在通过将系统级奖励转换为每个智能体的更新信号来解决此问题。 # 工作原理 CANTANTE 不是将智能体流水线视为单个黑箱，而是通过四个步骤隔离智能体的贡献： 1. **生成：** 本地优化器为单个智能体提出提示配置。 2. **评估：** 在相同的查询上评估这些配置，以捕获显式推理轨迹和系统级分数。 3. **归因：** 归因器分析并对比这些运行结果，根据每个智能体的性能贡献分离并分配一个独特的信用分数。 4. **优化：** 将这些每个智能体的信号反馈给本地优化器（我们使用 CAPO，来自 AutoML 2025 的提示优化器），以迭代优化提示。 # 基准性能我们在多个智能体基准上评估了 CANTANTE 与基于 DSPy 的最先进解决方案（GEPA 和 MIPROv2）的对比： * **MBPP（编程）：** 以 **+18.9 分** 击败最强基线。 * **GSM8K（数学推理）：** 以 **+12.5 分** 优于基线。 * **效率：** 与未优化的基线提示相比，保持标准推理时间成本——无需大量代币或延迟开销即可获得性能提升。作为一名研究智能体系统 AutoML 的独著博士生，将这项工作取得显著超越工业实验室基线的成果经历了巨大的努力。整个框架完全开源且免费使用。我很想听听你现在是如何处理多智能体设置中的优化和评估的。

查看原文

解决多智能体系统中的信用分配问题（CANTANTE框架）

相似文章

CANTANTE：通过对比信用分配优化智能体系统 [R]

通过反事实推理路径减少信用分配方差

多智能体计算机使用

COAgents：用于学习和导航路径规划问题搜索空间的多智能体框架

TMAS：通过多智能体协同扩展测试时计算

提交意见反馈