FrontierSmith: 大规模合成开放式编程问题
摘要
FrontierSmith 自动从封闭式任务中生成多样化的开放式编程问题,通过增强的智能体交互和训练数据合成,提升 LLM 在基准测试中的编码性能。
查看缓存全文
缓存时间: 2026/05/15 08:24
论文页面 - FrontierSmith:规模化合成开放式编程问题
来源:https://huggingface.co/papers/2605.14445
作者:
(此处为多个作者,按原文保留空白行)
摘要
FrontierSmith 自动化地从封闭式任务创建开放式编程问题,通过多样的问题变体和增强的智能体交互,提升 LLM 在基准测试中的编程性能。
许多现实世界的编程挑战是开放式的,没有已知的最优解。然而,近期 LLM 编程(https://huggingface.co/papers?q=LLM%20coding)的进展主要集中在特性实现、Bug 修复和竞赛编程(https://huggingface.co/papers?q=competitive%20programming)等定义明确的任务上。开放式编程(https://huggingface.co/papers?q=Open-ended%20coding)仍是 LLM 的薄弱环节,主要原因是开放式训练问题稀缺且构建成本高昂。我们的目标是规模化合成开放式编程(https://huggingface.co/papers?q=open-ended%20coding)问题,以训练更强的 LLM 编程模型。我们提出了 FrontierSmith,一个自动化系统,能从现有的封闭式编程任务中迭代演化出开放式问题。从竞赛编程(https://huggingface.co/papers?q=competitive%20programming)问题出发,FrontierSmith 通过改变问题目标、限制输出以及泛化输入来生成候选的开放式变体。然后,它使用一种定量化的想法分歧度量(https://huggingface.co/papers?q=idea%20divergence%20metric)来筛选那些能促使不同解题者产生真正多样化方法的问题。接着,智能体为留存候选生成测试用例和验证器。在两个开放式编程(https://huggingface.co/papers?q=open-ended%20coding)基准测试上,基于合成数据进行训练相比基础模型取得了显著提升:Qwen3.5-9B 在 FrontierCS(https://huggingface.co/papers?q=FrontierCS)上提升了 +8.82 分,在 ALE-bench(https://huggingface.co/papers?q=ALE-bench)上提升了 +306.36(基于 Elo 评分的性能(https://huggingface.co/papers?q=Elo-rating-based%20performance));Qwen3.5-27B 分别提升了 +12.12 和 +309.12。合成问题还使智能体在交互中增加更多轮次和使用更多 token,这与人工策划的问题类似,表明封闭式种子问题可以成为长期编程数据的实用起点。
查看 arXiv 页面(https://arxiv.org/abs/2605.14445)
查看 PDF(https://arxiv.org/pdf/2605.14445)
项目页面(https://frontier-cs.org/)
GitHub4(https://github.com/FrontierCS/FrontierSmith)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14445)
在您的智能体中获取此论文:
hf papers read 2605.14445
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.14445 以在此页面建立链接。
引用此论文的数据集 0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.14445 以在此页面建立链接。
引用此论文的 Space 0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.14445 以在此页面建立链接。
包含此论文的收藏集 0
暂无包含此论文的收藏集
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
@MangQiuyang: 开放式编程训练数据可能不再是瓶颈:AI 能够规模化开放式任务——甚至超越人类专家…
FrontierSmith 是一个系统,能够从封闭式任务中规模化地合成开放式编程问题。它生成、过滤并构建训练环境;使用其数据训练的模型在表现上优于使用人类策划的开放式数据训练的模型。
BenchEvolver: 基于解决方案进化的前沿任务合成
BenchEvolver 是一个进化框架,能够自动从现有编程问题中生成更难的题目,创建保持有效性和多样性的挑战性基准,同时支持模型自我改进和提升训练性能。
沙盒化编码智能体是竞争性全模态任务求解器
本文证明,使用沙盒化工具接口的文本+图像编码智能体在音视频基准测试中能够匹配甚至超越原生全模态模型,将全模态任务转化为检索与信息处理问题。
EvoCode-Bench:在多轮迭代交互中评估编码代理
介绍了EvoCode-Bench,这是一个包含26个有状态编码任务、共227轮评估的基准,用于评估多轮迭代交互中的编码代理,结果表明单轮性能高估了多轮能力22-40分。
Codex 最大化
Jason Liu 分享了他如何使用 OpenAI 的 Codex 进行编码之外的知识工作,利用持久化线程、语音输入和引导将编码代理整合到他更广泛的工作流程中。