模型越多越好。一个昂贵模型输给三个廉价模型,而且有篇论文探讨了这一点。
摘要
一篇关于混合智能体的论文(arxiv 2406.04692)表明,一组廉价开放模型利用去相关误差,在AlpacaEval 2.0上超越了GPT-4o。作者还分享了类似的真实世界发现:多个廉价模型比单个昂贵模型能发现更多漏洞。
好吧,这个问题一直困扰着我。有一篇关于混合智能体的论文(arxiv 2406.04692),其中一组开放模型(都不是前沿模型)被分层组合成一个委员会,在AlpacaEval 2.0上以65.1比57.5击败了GPT-4o。更便宜的组件,却得到更好的结果。这个现象与我们自己偶然遇到的情况惊人地吻合。我们的设置是让几个模型审查每次更改,只有在它们达成一致时才合并。我们选择这种方法不是因为它优雅,而是因为一个模型审查自己的工作时只会敷衍了事。令人惊讶的是,相互意见不同的廉价模型比一个自信的昂贵模型发现了更多问题。没有人真正告诉你它为什么有效。不是因为三个模型各自更聪明,而是因为它们的错误不重叠。一个大模型有一套盲点,每次都会撞上。三个不同的模型在不同地方出错,因此分歧之处恰恰是漏洞出现的地方。显然,这是有代价的。速度更慢,你需要支付多次调用而非一次,而且一组廉价模型可能共享一个错误的先验,从而一起自信地犯错。但对于任何犯错代价高昂的情况,这种权衡对我们来说是值得的。有没有其他人也采用了多模型而不是一个大模型?想知道你们是否也遇到了同样的去相关误差效应,还是说它在规模扩大后就失效了。
相似文章
当多个模型参与时,AI代理感觉更加可靠
探索如何使用多个AI模型进行代理工作流,揭示隐藏的不确定性和推理差距,表明未来的系统可能依赖跨模型共识而非单模型链。
@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%,匹配…
一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。
@ChrisGPotts:我们理所当然地认为更大的模型比小的更好,但为什么会这样?我们的新论文,由Jing Hua领导……
本文探讨了为什么更大的模型性能优于较小的模型,通过形式化分析和实验将其归因于数据引发的神经资源竞争。
一个4b模型现在在网络研究上击败30b模型,原因不在于规模
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
五个实验室,五种思维:基于小模型构建多模型金融剧(6分钟阅读)
关于构建多模型金融剧游戏的实地报告,其中每个代理运行在不同实验室的小模型上,展示了模型异构性的工程挑战和优势。