TMAS:通过多智能体协同扩展测试时计算

Hugging Face Daily Papers 论文

摘要

TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。

测试时扩展已成为一种有效范式,它通过在推理阶段分配额外计算资源来提升大语言模型的推理能力。近期的一些结构化方法通过组织多轨迹推理、多轮细化以及基于验证的反馈,进一步推动了该范式的发展。然而,现有的结构化测试时扩展方法要么对并行推理轨迹的协同较弱,要么依赖含噪的历史信息且未明确决定应保留和复用哪些内容,这限制了它们在探索与利用之间取得平衡的能力。在本工作中,我们提出 TMAS,一个通过多智能体协同来扩展测试时计算的框架。TMAS 将推理过程组织为专用智能体之间的协作流程,实现了跨智能体、跨轨迹以及跨细化迭代的结构化信息流动。为支持高效的跨轨迹协作,TMAS 引入了分层记忆机制:经验库复用底层可靠的中间结论与局部反馈,而指南库则记录先前探索过的高层策略,以引导后续推演避开冗余的推理模式。此外,我们为 TMAS 量身定制了一种混合奖励强化学习方案,该方案在保持基础推理能力的同时,提升了经验利用率,并鼓励探索以往未尝试过的解决策略。在多项复杂推理基准上的广泛实验表明,TMAS 在迭代扩展效果上优于现有的测试时扩展基线方法,而混合奖励训练进一步提升了跨迭代的扩展效果与稳定性。代码与数据已开源至 https://github.com/george-QF/TMAS-code。
查看原文
查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

Source: https://huggingface.co/papers/2605.10344

摘要

TMAS 是一个用于测试时扩展(test-time scaling)的多智能体框架,它通过结构化协作和分层记忆系统来增强大语言模型的推理能力。

测试时扩展 (https://huggingface.co/papers?q=Test-time%20scaling) 已成为一种有效的范式,通过在推理过程中分配额外计算量来提升大语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的推理能力 (https://huggingface.co/papers?q=reasoning%20ability)。近期的结构化方法通过在多条推理轨迹、细化轮次以及基于验证的反馈之间组织推理,进一步推动了该范式的发展。然而,现有的结构化测试时扩展方法 (https://huggingface.co/papers?q=test-time%20scaling) 要么对并行推理轨迹的协调较弱,要么依赖存在噪声的历史信息,且未明确决定应保留和重用哪些内容,从而限制了其在探索与利用之间取得平衡的能力。在本文中,我们提出了 TMAS,这是一个通过多智能体协同 (https://huggingface.co/papers?q=multi-agent%20synergy) 来扩展测试时计算的框架。TMAS 将推理组织为专用智能体之间的协作过程,实现了跨智能体、推理轨迹和细化迭代的结构化信息流。为了支持高效的跨轨迹协作,TMAS 引入了分层记忆 (https://huggingface.co/papers?q=hierarchical%20memories):经验库 (https://huggingface.co/papers?q=experience%20bank) 会复用低层级的可靠中间结论和本地反馈,而指南库 (https://huggingface.co/papers?q=guideline%20bank) 则记录先前探索过的高层级策略,以引导后续生成过程避开冗余的推理模式。此外,我们设计了一套专为 TMAS 定制的混合奖励强化学习 (https://huggingface.co/papers?q=hybrid%20reward%20reinforcement%20learning) 方案,该方案共同保留了基础推理能力、提升了经验利用率,并鼓励对以往尝试过的解决方案策略之外的空间进行探索。在具有挑战性的推理基准上进行的广泛实验表明,TMAS 实现了比现有测试时扩展基线更强的迭代扩展效果 (https://huggingface.co/papers?q=iterative%20scaling),而混合奖励训练进一步提升了各次迭代的扩展效果与稳定性。代码和数据已在 https://github.com/george-QF/TMAS-code. 提供。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10344) 查看 PDF (https://arxiv.org/pdf/2605.10344) GitHub0 (https://github.com/george-QF/TMAS-code) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.10344)

在您的智能体中获取本论文:

hf papers read 2605.10344

尚未安装最新版本的 CLI?执行以下命令: curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。

引用此论文的数据集 0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。

引用此论文的空间 0

暂无链接此论文的空间

在 Space README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。

收录此论文的合集 0

暂无收录此论文的合集

将此论文添加至合集 (https://huggingface.co/new-collection) 即可在此页建立链接。

相似文章

递归多智能体系统

Papers with Code Trending

本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。

Multi-Agent Transactive Memory

arXiv cs.AI

提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。

SMAC-Talk:面向大语言模型的星际争霸多智能体挑战自然语言扩展

arXiv cs.AI

SMAC-Talk 是一个新的基准测试,在星际争霸多智能体挑战的基础上进行扩展,旨在评估基于 LLM 的智能体在具有自然语言通信的协作多智能体环境中的表现。该基准包含带有欺骗性通信者的场景,并使用 Qwen3.5 系列模型对智能体进行基准测试,以研究推理能力、记忆机制和模型规模对协调效果的影响。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。