模型越多越好。一个昂贵模型输给三个廉价模型，而且有篇论文探讨了这一点。

Reddit r/artificial 2026/06/26 04:06 论文

mixture-of-agents open-models committee alpacaeval model-comparison cost-efficiency decorrelated-errors

摘要

一篇关于混合智能体的论文（arxiv 2406.04692）表明，一组廉价开放模型利用去相关误差，在AlpacaEval 2.0上超越了GPT-4o。作者还分享了类似的真实世界发现：多个廉价模型比单个昂贵模型能发现更多漏洞。

好吧，这个问题一直困扰着我。有一篇关于混合智能体的论文（arxiv 2406.04692），其中一组开放模型（都不是前沿模型）被分层组合成一个委员会，在AlpacaEval 2.0上以65.1比57.5击败了GPT-4o。更便宜的组件，却得到更好的结果。这个现象与我们自己偶然遇到的情况惊人地吻合。我们的设置是让几个模型审查每次更改，只有在它们达成一致时才合并。我们选择这种方法不是因为它优雅，而是因为一个模型审查自己的工作时只会敷衍了事。令人惊讶的是，相互意见不同的廉价模型比一个自信的昂贵模型发现了更多问题。没有人真正告诉你它为什么有效。不是因为三个模型各自更聪明，而是因为它们的错误不重叠。一个大模型有一套盲点，每次都会撞上。三个不同的模型在不同地方出错，因此分歧之处恰恰是漏洞出现的地方。显然，这是有代价的。速度更慢，你需要支付多次调用而非一次，而且一组廉价模型可能共享一个错误的先验，从而一起自信地犯错。但对于任何犯错代价高昂的情况，这种权衡对我们来说是值得的。有没有其他人也采用了多模型而不是一个大模型？想知道你们是否也遇到了同样的去相关误差效应，还是说它在规模扩大后就失效了。

查看原文

模型越多越好。一个昂贵模型输给三个廉价模型，而且有篇论文探讨了这一点。

相似文章

当多个模型参与时，AI代理感觉更加可靠

@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%，匹配…

@ChrisGPotts：我们理所当然地认为更大的模型比小的更好，但为什么会这样？我们的新论文，由Jing Hua领导……

一个4b模型现在在网络研究上击败30b模型，原因不在于规模

五个实验室，五种思维：基于小模型构建多模型金融剧（6分钟阅读）

提交意见反馈