FrontierSmith: 大规模合成开放式编程问题

Hugging Face Daily Papers 论文

摘要

FrontierSmith 自动从封闭式任务中生成多样化的开放式编程问题,通过增强的智能体交互和训练数据合成,提升 LLM 在基准测试中的编码性能。

许多现实世界的编程挑战是开放式的,并且没有已知的最优解。然而,近期LLM编码的进展主要集中在明确定义的任务上,如功能实现、Bug修复和竞赛编程。开放式编码仍然是LLM的薄弱环节,主要是因为开放式训练问题稀缺且构建成本高昂。我们的目标是大规模合成开放式编程问题,以训练更强的LLM编码器。我们引入了FrontierSmith,一个自动化系统,用于从现有的封闭式编码任务中迭代演化出开放式问题。从竞赛编程问题开始,FrontierSmith通过改变问题目标、限制输出和泛化输入来生成候选开放式变体。然后,它使用一个量化的思想分歧度量来选择那些能引发不同求解者真正多样化方法的问题。随后,智能体为存活的候选问题生成测试用例和验证器。在两个开放式编码基准测试上,使用我们合成数据进行训练相比基础模型取得了显著提升:Qwen3.5-9B在FrontierCS上提高了+8.82分,在ALE-bench上提高了+306.36(基于Elo评分的表现);Qwen3.5-27B分别提高了+12.12和+309.12。合成的问题还使得智能体采取更多轮次并使用更多令牌,这与人工精选的问题类似,表明封闭式种子可以作为长周期编码数据的实用起点。
查看原文
查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - FrontierSmith:规模化合成开放式编程问题

来源:https://huggingface.co/papers/2605.14445
作者:
(此处为多个作者,按原文保留空白行)

摘要

FrontierSmith 自动化地从封闭式任务创建开放式编程问题,通过多样的问题变体和增强的智能体交互,提升 LLM 在基准测试中的编程性能。

许多现实世界的编程挑战是开放式的,没有已知的最优解。然而,近期 LLM 编程(https://huggingface.co/papers?q=LLM%20coding)的进展主要集中在特性实现、Bug 修复和竞赛编程(https://huggingface.co/papers?q=competitive%20programming)等定义明确的任务上。开放式编程(https://huggingface.co/papers?q=Open-ended%20coding)仍是 LLM 的薄弱环节,主要原因是开放式训练问题稀缺且构建成本高昂。我们的目标是规模化合成开放式编程(https://huggingface.co/papers?q=open-ended%20coding)问题,以训练更强的 LLM 编程模型。我们提出了 FrontierSmith,一个自动化系统,能从现有的封闭式编程任务中迭代演化出开放式问题。从竞赛编程(https://huggingface.co/papers?q=competitive%20programming)问题出发,FrontierSmith 通过改变问题目标、限制输出以及泛化输入来生成候选的开放式变体。然后,它使用一种定量化的想法分歧度量(https://huggingface.co/papers?q=idea%20divergence%20metric)来筛选那些能促使不同解题者产生真正多样化方法的问题。接着,智能体为留存候选生成测试用例和验证器。在两个开放式编程(https://huggingface.co/papers?q=open-ended%20coding)基准测试上,基于合成数据进行训练相比基础模型取得了显著提升:Qwen3.5-9B 在 FrontierCS(https://huggingface.co/papers?q=FrontierCS)上提升了 +8.82 分,在 ALE-bench(https://huggingface.co/papers?q=ALE-bench)上提升了 +306.36(基于 Elo 评分的性能(https://huggingface.co/papers?q=Elo-rating-based%20performance));Qwen3.5-27B 分别提升了 +12.12 和 +309.12。合成问题还使智能体在交互中增加更多轮次和使用更多 token,这与人工策划的问题类似,表明封闭式种子问题可以成为长期编程数据的实用起点。

查看 arXiv 页面(https://arxiv.org/abs/2605.14445)
查看 PDF(https://arxiv.org/pdf/2605.14445)
项目页面(https://frontier-cs.org/)
GitHub4(https://github.com/FrontierCS/FrontierSmith)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14445)

在您的智能体中获取此论文:

hf papers read 2605.14445

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.14445 以在此页面建立链接。

引用此论文的数据集 0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.14445 以在此页面建立链接。

引用此论文的 Space 0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.14445 以在此页面建立链接。

包含此论文的收藏集 0

暂无包含此论文的收藏集

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

Codex 最大化

Hacker News Top

Jason Liu 分享了他如何使用 OpenAI 的 Codex 进行编码之外的知识工作,利用持久化线程、语音输入和引导将编码代理整合到他更广泛的工作流程中。