TMAS：通过多智能体协同扩展测试时计算

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

TMAS 引入了一种多智能体框架，通过结构化协作与分层记忆系统扩展测试时计算，从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习，有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。

测试时扩展已成为一种有效范式，它通过在推理阶段分配额外计算资源来提升大语言模型的推理能力。近期的一些结构化方法通过组织多轨迹推理、多轮细化以及基于验证的反馈，进一步推动了该范式的发展。然而，现有的结构化测试时扩展方法要么对并行推理轨迹的协同较弱，要么依赖含噪的历史信息且未明确决定应保留和复用哪些内容，这限制了它们在探索与利用之间取得平衡的能力。在本工作中，我们提出 TMAS，一个通过多智能体协同来扩展测试时计算的框架。TMAS 将推理过程组织为专用智能体之间的协作流程，实现了跨智能体、跨轨迹以及跨细化迭代的结构化信息流动。为支持高效的跨轨迹协作，TMAS 引入了分层记忆机制：经验库复用底层可靠的中间结论与局部反馈，而指南库则记录先前探索过的高层策略，以引导后续推演避开冗余的推理模式。此外，我们为 TMAS 量身定制了一种混合奖励强化学习方案，该方案在保持基础推理能力的同时，提升了经验利用率，并鼓励探索以往未尝试过的解决策略。在多项复杂推理基准上的广泛实验表明，TMAS 在迭代扩展效果上优于现有的测试时扩展基线方法，而混合奖励训练进一步提升了跨迭代的扩展效果与稳定性。代码与数据已开源至 https://github.com/george-QF/TMAS-code。

查看原文

查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

Source: https://huggingface.co/papers/2605.10344

摘要

TMAS 是一个用于测试时扩展（test-time scaling）的多智能体框架，它通过结构化协作和分层记忆系统来增强大语言模型的推理能力。

测试时扩展 (https://huggingface.co/papers?q=Test-time%20scaling) 已成为一种有效的范式，通过在推理过程中分配额外计算量来提升大语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的推理能力 (https://huggingface.co/papers?q=reasoning%20ability)。近期的结构化方法通过在多条推理轨迹、细化轮次以及基于验证的反馈之间组织推理，进一步推动了该范式的发展。然而，现有的结构化测试时扩展方法 (https://huggingface.co/papers?q=test-time%20scaling) 要么对并行推理轨迹的协调较弱，要么依赖存在噪声的历史信息，且未明确决定应保留和重用哪些内容，从而限制了其在探索与利用之间取得平衡的能力。在本文中，我们提出了 TMAS，这是一个通过多智能体协同 (https://huggingface.co/papers?q=multi-agent%20synergy) 来扩展测试时计算的框架。TMAS 将推理组织为专用智能体之间的协作过程，实现了跨智能体、推理轨迹和细化迭代的结构化信息流。为了支持高效的跨轨迹协作，TMAS 引入了分层记忆 (https://huggingface.co/papers?q=hierarchical%20memories)：经验库 (https://huggingface.co/papers?q=experience%20bank) 会复用低层级的可靠中间结论和本地反馈，而指南库 (https://huggingface.co/papers?q=guideline%20bank) 则记录先前探索过的高层级策略，以引导后续生成过程避开冗余的推理模式。此外，我们设计了一套专为 TMAS 定制的混合奖励强化学习 (https://huggingface.co/papers?q=hybrid%20reward%20reinforcement%20learning) 方案，该方案共同保留了基础推理能力、提升了经验利用率，并鼓励对以往尝试过的解决方案策略之外的空间进行探索。在具有挑战性的推理基准上进行的广泛实验表明，TMAS 实现了比现有测试时扩展基线更强的迭代扩展效果 (https://huggingface.co/papers?q=iterative%20scaling)，而混合奖励训练进一步提升了各次迭代的扩展效果与稳定性。代码和数据已在 https://github.com/george-QF/TMAS-code. 提供。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10344) 查看 PDF (https://arxiv.org/pdf/2605.10344) GitHub0 (https://github.com/george-QF/TMAS-code) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.10344)

在您的智能体中获取本论文：

hf papers read 2605.10344

尚未安装最新版本的 CLI？执行以下命令： curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。

引用此论文的数据集 0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。

引用此论文的空间 0

暂无链接此论文的空间

在 Space README.md 中引用 arxiv.org/abs/2605.10344 即可在此页建立链接。

收录此论文的合集 0

暂无收录此论文的合集

将此论文添加至合集 (https://huggingface.co/new-collection) 即可在此页建立链接。

TMAS：通过多智能体协同扩展测试时计算

论文页面 - TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

收录此论文的合集 0

相似文章

递归多智能体系统

Multi-Agent Transactive Memory

SMAC-Talk：面向大语言模型的星际争霸多智能体挑战自然语言扩展

TacoMAS：基于大语言模型的多智能体系统中拓扑与能力的测试时共演化

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

提交意见反馈