标签
一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。
本文研究了以验证器为后盾的委员会搜索作为推理语言模型的推理时增强方法,表明在像 SWE-bench Verified 这样的代码修复任务上,弱推理模型委员会可以匹配强得多的模型的性能。