BenchEvolver: 基于解决方案进化的前沿任务合成

Hugging Face Daily Papers 论文

摘要

BenchEvolver 是一个进化框架,能够自动从现有编程问题中生成更难的题目,创建保持有效性和多样性的挑战性基准,同时支持模型自我改进和提升训练性能。

前沿大型语言模型的快速进步导致了广泛的基准饱和,限制了现有数据集区分模型能力或提供有用训练信号的能力。例如,在LiveCodeBench上,前沿模型在简单分块上的Pass@1超过99%,在平均难度级别上超过90%的Pass@1。构建新的、具有挑战性的数据集通常需要大量人力,这成为进步的瓶颈。我们引入了BenchEvolver,一个以解决方案为中心的进化框架,自动将现有编程问题转化为更难的变体。BenchEvolver并非从头生成问题,而是通过结构化变换进化参考解决方案,并从进化后的解决方案中推导出相应的题目描述和测试。这种设计将生成过程建立在可执行语义上,使得能够可扩展地构建高质量、多样且难度大的任务,并具有可验证的正确性。将BenchEvolver应用于LiveCodeBench和SciCode,我们获得了显著更难的进化任务,同时保持了有效性、参考正确性和多样性。我们进一步整理出LiveCodeBench-Plus,一个包含91个问题的基准,结合了进化后的任务和原始LCB-v6中的困难任务,其中前沿模型的Pass@1范围从27.5%到62.6%,恢复了强编码模型之间的清晰区分。重要的是,即使对于生成这些任务的模型来说,进化后的任务仍然具有挑战性,从而实现了自我改进。我们进一步表明,在进化后的LCB任务上进行强化学习可以提高保留的编码性能:对于gpt-oss-20b,种子+进化训练在LCB v6 Hard和LCB-Pro Easy上分别实现了+8.7和+8.3的Pass@1提升,分别超过仅种子训练的增益70.7%和34.8%。我们的结果表明,BenchEvolver能够将饱和的基准转化为前沿级别的评估套件和可重用的训练信号。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - BenchEvolver:通过以解决方案为中心的演化进行前沿任务合成

来源:https://huggingface.co/papers/2606.01286 作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

BenchEvolver 是一个演化框架,能够自动从现有编程问题生成更难的变体,从而创建具有挑战性的基准,在保持有效性和多样性的同时,实现模型自我改进并提升训练性能。

前沿大语言模型的快速发展已导致广泛基准饱和(https://huggingface.co/papers?q=benchmark%20saturation),限制了现有数据集区分模型能力或提供有用训练信号(https://huggingface.co/papers?q=training%20signal)的能力。例如,在 LiveCodeBench(https://huggingface.co/papers?q=LiveCodeBench)上,前沿模型(https://huggingface.co/papers?q=frontier%20models)在简单分片上的 Pass@1(https://huggingface.co/papers?q=Pass%401)超过 99%,所有难度级别的平均 Pass@1(https://huggingface.co/papers?q=Pass%401)超过 90%。构建新颖且具有挑战性的数据集通常需要大量人工工作,这成为进步的瓶颈。我们引入了 BenchEvolver,这是一种以解决方案为中心的演化框架(https://huggingface.co/papers?q=evolutionary%20framework),能够自动将现有编程问题(https://huggingface.co/papers?q=coding%20problems)转化为更难的变体。BenchEvolver 并非从头生成问题,而是通过结构化变换(https://huggingface.co/papers?q=structured%20transformations)演化参考解决方案(https://huggingface.co/papers?q=reference%20solutions),并从演化后的解决方案推导出相应的题目描述和测试用例。这种设计将生成过程锚定在可执行语义(https://huggingface.co/papers?q=executable%20semantics)上,从而能够可扩展地构建高质量、多样化且困难的任务,同时确保正确性可验证。将 BenchEvolver 应用于 LiveCodeBench(https://huggingface.co/papers?q=LiveCodeBench)和 SciCode(https://huggingface.co/papers?q=SciCode),我们获得了显著更难的演化任务,同时保持了有效性、参考正确性和多样性。我们进一步整理出 LiveCodeBench(https://huggingface.co/papers?q=LiveCodeBench)-Plus,这是一个包含 91 个问题的基准,结合了演化后的任务和原始困难的 LCB-v6(https://huggingface.co/papers?q=LCB-v6)任务,前沿模型的 Pass@1(https://huggingface.co/papers?q=Pass%401)范围从 27.5% 到 62.6%,恢复了强编码模型之间的清晰区分。重要的是,演化后的任务即使对于生成它们的模型本身也具有挑战性,从而实现了自我改进(https://huggingface.co/papers?q=self-improvement)。我们进一步表明,在演化后的 LCB 任务上进行强化学习能够提升保留编码性能:对于 gpt-oss-20b,seed+evolved 训练在 LCB v6 Hard 和 LCB-Pro Easy 上分别实现了 +8.7 和 +8.3 的 Pass@1(https://huggingface.co/papers?q=Pass%401)改进,分别比仅使用种子数据训练的改进高出 70.7% 和 34.8%。我们的结果表明,BenchEvolver 能够将饱和的基准转化为前沿级别的评估套件和可重复使用的训练信号(https://huggingface.co/papers?q=training%20signal)。

查看 arXiv 页面(https://arxiv.org/abs/2606.01286)查看 PDF(https://arxiv.org/pdf/2606.01286)项目页面(https://benchevolver.github.io/)GitHub(https://github.com/thu-wyz/BenchEvolver)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01286)

在您的 agent 中获取此论文:

hf papers read 2606.01286

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01286 以从此页面链接。

引用此论文的数据集1

BenchEvolver/livecodebench-plus 查看器•更新于1天前 • 91 • 19(https://huggingface.co/datasets/BenchEvolver/livecodebench-plus)

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01286 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

FrontierSmith: 大规模合成开放式编程问题

Hugging Face Daily Papers

FrontierSmith 自动从封闭式任务中生成多样化的开放式编程问题,通过增强的智能体交互和训练数据合成,提升 LLM 在基准测试中的编码性能。

SkillEvolBench:从情景经验到程序技能的进化基准测试

Hugging Face Daily Papers

SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。

EvoMap/evolver

GitHub Trending (daily)

Evolver 是一个由 GEP 驱动的 AI 代理自演化引擎,可自动化提示词优化并创建可审计、可复用的演化资产。该项目正从完全开源过渡到源代码可用,同时保持与现有 MIT 和 GPL-3.0 版本的向后兼容性。

Verilog-Evolve: 反馈驱动与技能演进的Verilog生成

arXiv cs.CL

Verilog-Evolve 是一个反馈驱动的框架,通过迭代优化大型语言模型生成的 Verilog 代码,利用功能仿真、综合和时序指标促进更优候选方案的选出,并跨任务演进可复用的修复技能。