@rohanpaul_ai: 斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个……更好地解决多跳问题

X AI KOLs Timeline 论文

摘要

一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。

斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个协调的LLM更好地解决多跳问题。 其核心观点简单得令人尴尬。 单个智能体将整个问题保持在一条内部思维链中,而多智能体系统则必须将该链条分割成消息、摘要和交接。 每一次交接都是一个压缩步骤。 一旦推理被压缩,某些信息比恢复更容易丢失,这就是为什么该论文依赖数据处理不等式作为正式解释,而非仅仅依靠经验直觉。 实验在Qwen、DeepSeek和Gemini上,以及FRAMES和MuSiQue数据集上验证了这一点:当思考token预算匹配时,单智能体系统通常达到或超越顺序、辩论、角色扮演和集成等设置。 这是大多数人忽略的部分。 许多备受赞誉的多智能体提升可能根本不是架构上的提升。它们往往来自于花费更多测试时计算、展示更多可见推理,或受益于使流程看起来更聪明的评估技巧。 该论文在寻找边界情况而非假装规则普适时尤其犀利。 当单个智能体的有效上下文因屏蔽、替换或误导性干扰而退化时,多智能体流程变得更具竞争力,有时甚至获胜,这不是因为消息传递神奇,而是因为结构可以部分稳定受损的推理。 这比“更多智能体更好”的主张更加狭隘且更有用。 这表明真正的权衡不是单个与多个,而是潜在推理与外部协调,上下文质量和计算预算决定了哪一方看似更强。 对于多跳推理,默认策略现在应明确:从一个强模型开始,将额外智能体视为修复策略,而非升级。 ---- 论文链接 – arxiv. org/abs/2604.02460 论文标题:"Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets"
查看原文
查看缓存全文

缓存时间: 2026/05/19 16:47

斯坦福大学新论文指出,在相等的推理预算下,单个大语言模型解决多跳推理问题的效果通常优于多个协调模型。

核心观点几乎简单得令人尴尬。

单个智能体将整个问题保留在一个内部思维链中,而多智能体系统则必须将该链切分成消息、摘要和交接。

每一次交接都是一次压缩步骤。

而一旦推理过程被压缩,某些信息就比恢复更容易丢失——这就是为什么这篇论文以数据处理不等式作为形式化解释,而非仅仅依赖经验直觉。

实验在Qwen、DeepSeek和Gemini模型上,基于FRAMES和MuSiQue数据集验证了这一结论:当推理令牌预算相同时,单智能体系统通常能匹配或超越顺序式、辩论式、角色式及集成式多智能体架构。

这是大多数人忽略的部分。

许多被赞誉的多智能体优势可能根本不是架构优势。它们往往源于花费更多的测试时计算量、展现更多可见推理过程,或利用评估中的漏洞让流水线显得更智能。

论文在处理边界情况时尤为犀利,而非试图假装该规则放之四海而皆准。

当单智能体的有效上下文因遮蔽、替换或误导性干扰而退化时,多智能体流水线会变得更具竞争力,有时甚至胜出——并非因为消息传递具有魔力,而是因为结构化能在一定程度上稳定受损的推理。

这比“更多智能体更好“的论断要狭窄且有用得多。

它表明真正的权衡不在于单智能体与多智能体,而在于潜在推理与外部协调,具体哪一方表现更优取决于上下文质量和计算资源。

对于多跳推理,默认选择现在应明确:从一个强模型开始,将额外智能体视为修复策略,而非升级方案。


论文链接 – arxiv.org/abs/2604.02460

论文标题:“Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets”

相似文章

LLM智能体系统中技能的规模化定律

arXiv cs.CL

本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。