@rohanpaul_ai: 斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个……更好地解决多跳问题
摘要
一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。
查看缓存全文
缓存时间: 2026/05/19 16:47
斯坦福大学新论文指出,在相等的推理预算下,单个大语言模型解决多跳推理问题的效果通常优于多个协调模型。
核心观点几乎简单得令人尴尬。
单个智能体将整个问题保留在一个内部思维链中,而多智能体系统则必须将该链切分成消息、摘要和交接。
每一次交接都是一次压缩步骤。
而一旦推理过程被压缩,某些信息就比恢复更容易丢失——这就是为什么这篇论文以数据处理不等式作为形式化解释,而非仅仅依赖经验直觉。
实验在Qwen、DeepSeek和Gemini模型上,基于FRAMES和MuSiQue数据集验证了这一结论:当推理令牌预算相同时,单智能体系统通常能匹配或超越顺序式、辩论式、角色式及集成式多智能体架构。
这是大多数人忽略的部分。
许多被赞誉的多智能体优势可能根本不是架构优势。它们往往源于花费更多的测试时计算量、展现更多可见推理过程,或利用评估中的漏洞让流水线显得更智能。
论文在处理边界情况时尤为犀利,而非试图假装该规则放之四海而皆准。
当单智能体的有效上下文因遮蔽、替换或误导性干扰而退化时,多智能体流水线会变得更具竞争力,有时甚至胜出——并非因为消息传递具有魔力,而是因为结构化能在一定程度上稳定受损的推理。
这比“更多智能体更好“的论断要狭窄且有用得多。
它表明真正的权衡不在于单智能体与多智能体,而在于潜在推理与外部协调,具体哪一方表现更优取决于上下文质量和计算资源。
对于多跳推理,默认选择现在应明确:从一个强模型开始,将额外智能体视为修复策略,而非升级方案。
论文链接 – arxiv.org/abs/2604.02460
论文标题:“Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets”
相似文章
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。
上下文、推理与层次结构:对抗性POMDP中复合LLM智能体设计的成本-性能研究
在对抗性POMDP(CybORG CAGE-2)中对复合LLM智能体设计进行了一项受控研究,系统性地在五个模型系列中变化上下文、推理与层次结构。主要发现:程序化状态抽象每token产生巨大回报,无推理工具的层次结构实现了最佳绝对性能,并且上下文工程比深度推理更具成本效益。
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。
相互推理让小型语言模型成为更强大的问题求解者
本文介绍了一种相互推理技术,通过自我反馈和奖励函数迭代优化候选解决方案,从而增强小型语言模型(LLMs)的问题求解能力。
LLM智能体系统中技能的规模化定律
本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。