TacoMAS:基于大语言模型的多智能体系统中拓扑与能力的测试时共演化
摘要
本文介绍了 TacoMAS,这是一个用于大语言模型驱动的多智能体系统中智能体能力与通信拓扑测试时共演化的框架。研究表明,与现有基线相比,联合调整快速能力环和慢速拓扑环能够提升性能并增强稳定性。
查看缓存全文
缓存时间: 2026/05/13 12:14
论文页面 - TacoMAS:基于大语言模型的多智能体系统中测试时拓扑与能力的协同演化
来源:https://huggingface.co/papers/2605.09539
摘要
一种用于多智能体系统的测试时协同演化框架,通过在不同时间尺度上联合调整智能体能力和通信拓扑,实现任务条件稳定性并提升性能。
多智能体系统(MAS)已成为解决复杂任务的一种有前景的范式。最近的工作探索了能够自动优化智能体能力或通信拓扑的自我演化 MAS。然而,现有方法要么在推理时学习并保持固定的拓扑,要么在推理期间仅调整拓扑或能力。我们在经验和理论上证明,有效的测试时演化需要联合调整这两个维度,但需在不同时间尺度上进行:能力应快速更新以应对新兴的子任务,而拓扑应较慢演化以保持协调稳定性。随后我们引入了 TacoMAS,一种面向动态 MAS 的测试时协同演化框架。TacoMAS 将 MAS 推理表述为在线图适应任务,其中节点代表具有特定角色能力的智能体,边定义其通信拓扑。在推理过程中,快速能力循环利用轨迹级反馈更新智能体专长,而由元大语言模型驱动的快速拓扑循环则在 MAS 上执行智能体的生灭操作,包括边编辑、智能体添加和智能体移除。我们进一步证明,这种快慢设计驱动 MAS 演化趋向任务条件的稳定均衡。在四个基准测试上的实验表明,TacoMAS 优于近 20 个多智能体基线模型,相比最强基线平均提升了 13.3%。代码已发布在 https://github.com/chenxu2-gif/TacoMAS-MultiAgent。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09539) 查看 PDF (https://arxiv.org/pdf/2605.09539) GitHub1 (https://github.com/chenxu2-gif/TacoMAS-MultiAgent) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09539)
在你的智能体中获取此论文:
hf papers read 2605\.09539
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09539 以从本页链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.09539 以从本页链接。
引用此论文的空间0
没有空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2605.09539 以从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。
一种基于观测上下文压缩的高效终端智能体自我演化框架
TACO 提出了一种自我演化压缩框架,可自动学习压缩冗余的终端交互历史,在 TerminalBench 及其他代码智能体基准上将 token 开销降低约 10%,准确率提升 1–4%。
SkillCAT:对比性评估与拓扑感知的LLM智能体技能自我进化
SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。
Minecraft中面向时间敏感互补协作的多智能体框架
论文提出了TickingCollabBench,这是一个基于Minecraft的多智能体基准测试,用于动态环境中的时间敏感互补协作任务,并展示了与全局知识预言机相比,大语言模型在此类条件下经常失败。
EvoTest:面向自我改进智能体系统的进化式测试时学习
EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。