boosting

标签

Cards List
#boosting

@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%,匹配…

X AI KOLs Following · 2026-05-18 缓存

一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。

0 人收藏 0 人点赞
#boosting

作为弱推理模型助推器的智能体系统

arXiv cs.AI · 2026-05-15 缓存

本文研究了以验证器为后盾的委员会搜索作为推理语言模型的推理时增强方法,表明在像 SWE-bench Verified 这样的代码修复任务上,弱推理模型委员会可以匹配强得多的模型的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈