TMAS:通过多智能体协同扩展测试时计算
摘要
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。
查看缓存全文
缓存时间: 2026/05/12 10:52
论文页面 - TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
Source: https://huggingface.co/papers/2605.10344
摘要
TMAS 是一个用于测试时扩展(test-time scaling)的多智能体框架,它通过结构化协作和分层记忆系统来增强大语言模型的推理能力。
测试时扩展 (https://huggingface.co/papers?q=Test-time%20scaling) 已成为一种有效的范式,通过在推理过程中分配额外计算量来提升大语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的推理能力 (https://huggingface.co/papers?q=reasoning%20ability)。近期的结构化方法通过在多条推理轨迹、细化轮次以及基于验证的反馈之间组织推理,进一步推动了该范式的发展。然而,现有的结构化测试时扩展方法 (https://huggingface.co/papers?q=test-time%20scaling) 要么对并行推理轨迹的协调较弱,要么依赖存在噪声的历史信息,且未明确决定应保留和重用哪些内容,从而限制了其在探索与利用之间取得平衡的能力。在本文中,我们提出了 TMAS,这是一个通过多智能体协同 (https://huggingface.co/papers?q=multi-agent%20synergy) 来扩展测试时计算的框架。TMAS 将推理组织为专用智能体之间的协作过程,实现了跨智能体、推理轨迹和细化迭代的结构化信息流。为了支持高效的跨轨迹协作,TMAS 引入了分层记忆 (https://huggingface.co/papers?q=hierarchical%20memories):经验库 (https://huggingface.co/papers?q=experience%20bank) 会复用低层级的可靠中间结论和本地反馈,而指南库 (https://huggingface.co/papers?q=guideline%20bank) 则记录先前探索过的高层级策略,以引导后续生成过程避开冗余的推理模式。此外,我们设计了一套专为 TMAS 定制的混合奖励强化学习 (https://huggingface.co/papers?q=hybrid%20reward%20reinforcement%20learning) 方案,该方案共同保留了基础推理能力、提升了经验利用率,并鼓励对以往尝试过的解决方案策略之外的空间进行探索。在具有挑战性的推理基准上进行的广泛实验表明,TMAS 实现了比现有测试时扩展基线更强的迭代扩展效果 (https://huggingface.co/papers?q=iterative%20scaling),而混合奖励训练进一步提升了各次迭代的扩展效果与稳定性。代码和数据已在 https://github.com/george-QF/TMAS-code. 提供。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10344) 查看 PDF (https://arxiv.org/pdf/2605.10344) GitHub0 (https://github.com/george-QF/TMAS-code) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.10344)
在您的智能体中获取本论文:
hf papers read 2605.10344
尚未安装最新版本的 CLI?执行以下命令:
curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。
引用此论文的数据集 0
暂无链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。
引用此论文的空间 0
暂无链接此论文的空间
在 Space README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。
收录此论文的合集 0
暂无收录此论文的合集
将此论文添加至合集 (https://huggingface.co/new-collection) 即可在此页建立链接。
相似文章
递归多智能体系统
本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。
Multi-Agent Transactive Memory
提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。
SMAC-Talk:面向大语言模型的星际争霸多智能体挑战自然语言扩展
SMAC-Talk 是一个新的基准测试,在星际争霸多智能体挑战的基础上进行扩展,旨在评估基于 LLM 的智能体在具有自然语言通信的协作多智能体环境中的表现。该基准包含带有欺骗性通信者的场景,并使用 Qwen3.5 系列模型对智能体进行基准测试,以研究推理能力、记忆机制和模型规模对协调效果的影响。
TacoMAS:基于大语言模型的多智能体系统中拓扑与能力的测试时共演化
本文介绍了 TacoMAS,这是一个用于大语言模型驱动的多智能体系统中智能体能力与通信拓扑测试时共演化的框架。研究表明,与现有基线相比,联合调整快速能力环和慢速拓扑环能够提升性能并增强稳定性。
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。