@MangQiuyang: 开放式编程训练数据可能不再是瓶颈:AI 能够规模化开放式任务——甚至超越人类专家…
摘要
FrontierSmith 是一个系统,能够从封闭式任务中规模化地合成开放式编程问题。它生成、过滤并构建训练环境;使用其数据训练的模型在表现上优于使用人类策划的开放式数据训练的模型。
查看缓存全文
缓存时间: 2026/05/16 03:11
开放式编程训练数据可能不再是瓶颈:AI可以规模化生成开放式任务,甚至超越人类专家精选。FrontierCS团队发布FrontierSmith:一个可规模化合成开放式编程问题的系统。从封闭式编程任务出发,FrontierSmith通过变异、筛选和构建可执行的优化环境,为长周期编码智能体提供支持。实验表明,在FrontierCS和ALE-bench上,使用FrontierSmith数据训练的模型优于使用人类精选的开放式数据训练的模型。博客:https://frontier-cs.org/blog/frontiersmith/… 论文:https://arxiv.org/abs/2605.14445 代码:https://github.com/FrontierCS/FrontierSmith… 模型:https://huggingface.co/runyuanhe/qwen35-9b-frontiersmith…
Frontier-CS 博客文章 | FrontierSmith:规模化合成开放式编程问题
来源:https://frontier-cs.org/blog/frontiersmith/
目录
**TL;DR.**我们发布了 FrontierSmith(https://arxiv.org/abs/2605.14445),一个可规模化合成开放式编程问题的系统。从封闭式编程任务出发,FrontierSmith 生成具有连续得分的优化类问题,通过真实解决方案多样性进行筛选,并构建可运行的训练环境。实验表明,使用 FrontierSmith 数据训练的模型可以超越使用人类精选的开放式数据训练的模型,并且生成的任务能够真正激发长周期智能体行为。
数据瓶颈
代码智能体在重复性软件工作中表现出色。在众多研究实验室和初创公司中,下一个关键问题日益聚焦于人工智能能否解决现实世界中重要的开放式优化问题:芯片布局和布线、物流、电网调度、数据库调优、内核优化等等。
但我们之前关于 Harbor 的 FrontierCS 博客(https://frontier-cs.org/blog/harbor/)揭示了一个明显弱点。如今的代码智能体在长周期、开放式优化任务上的可靠性远不及传统的竞赛或数学类任务。
我们认为主要原因是数据。
经典的 RLVR 设置拥有大量高质量训练数据。仅竞赛编程就有超过 10 万个公开问题,而更广泛的编码数据产业也在持续产生更多数据。相比之下,如果我们将诸如 FrontierCS(https://github.com/FrontierCS/Frontier-CS)、ALE-bench(https://github.com/SakanaAI/ALE-Bench)、KernelBench(https://github.com/ScalingIntelligence/KernelBench)以及最近的 MLS-Bench(https://mls-bench.com/)等开放式优化基准加起来,仍然只有几百个任务。
封闭式代码任务很丰富,但高质量的开放式任务仍然稀缺。
封闭式编码数据很丰富。高质量的开放式编码任务仍然稀缺。
这个差距就是 FrontierSmith 要解决的核心问题。前沿实验室可能已经认识到开放式优化的价值,但没有足够的可扩展训练任务,就很难进行那种使封闭式编码模型变得如此强大的训练。
从封闭到开放
FrontierSmith 的核心思想很简单:不要要求 LLM 从零开始发明高质量的开放式问题。而是从封闭式问题入手。
封闭式编码任务已经非常丰富。给定一个 LeetCode 风格或竞赛编程风格的问题,FrontierSmith 应用原则性变异,将其转化为一个高质量的开放式优化问题。
FrontierSmith 流程:种子问题、变异、筛选、构建环境、输出开放式问题。
FrontierSmith 从封闭式种子问题开始,将其变异为开放式候选问题,通过解决方案多样性进行筛选,然后构建可运行的训练环境。
我们将问题定义为一个元组:目标(O)、输入约束(C_I)和输出约束(C_O)。FrontierSmith 沿着三个轴对公式进行变异:
- 改变目标(O → O’):将精确或二元目标替换为优化目标。
- 限制输出(C_O → C_O’):添加约束,使得精确解在规模上不可行。
- 泛化输入(C_I → C_I’):放宽输入假设,使原本可处理的问题变得困难。
三种将封闭式问题公式变异为开放式问题公式的方法。
FrontierSmith 通过改变目标、限制输出或泛化输入来变异问题公式。
一个简单的例子是最小生成树。原始问题有一个简洁的贪心解法。如果我们添加一个度约束,要求树中每个顶点的度数不超过 D,问题就变成了度约束生成树问题。当 D = 2 时,这简化为经典的 TSP 类设置。在实际规模下,精确最优不再可行,解的质量变成连续的。
筛选真实多样性
变异产生了许多候选问题,但并非每个都有用。有些仍然是有效的封闭式问题。有些在表述上是开放式的,但被一种明显策略主导。
我们的核心筛选信号是 想法分歧。我们不能要求 LLM 证明一个问题属于 P 还是 NP 难,或者在固定计算预算下是否可达到最优。但我们可以从不同求解器采样解,并询问它们是否探索了有意义的算法思想差异。
开放式问题往往会产生多样化的解决策略。封闭式问题通常被单一的“黄金想法”主导。
想法分歧可以通过比较求解器策略或衡量测试用例上的得分向量距离来估计。
想法分歧通过两种方式估计:语义上通过比较求解器策略,行为上通过比较生成测试上的得分向量。
FrontierSmith 在两个阶段使用这个信号。在构建执行环境之前,一个 LLM 裁判比较采样解,并估计它们是否使用了相同的策略。在测试和验证器构建完成后,FrontierSmith 还比较跨测试用例的解得分向量。低分歧的候选将被丢弃。
构建训练环境
幸存的想法被转化为干净、可运行的训练环境。我们重用 FrontierCS 的判题沙箱,并为每个任务生成两个部分:
- 测试用例生成器。
- 返回 [0, 1] 归一化分数的验证器。
对于评分,FrontierSmith 使用一个简单的基线归一化方案。对于一个任务,我们生成一个简单的基线解。假设基线获得目标值 x,提交的解获得 y。对于最小化问题,归一化改进分数可以计算为:
[ \max\left{\frac{x - y}{\max(x, y)}, 0\right} ]
最大化问题则类似。崩溃、超时和无效输出得零分。这为 RL 系统提供了连续奖励,而不是二元通过/失败反馈。
实验
我们在两个开放式编码基准上进行评估:
- FrontierCS,使用 172 个算法开放式任务。
- ALE-bench-lite,源自 AtCoder Heuristic Contest 风格的优化任务。
对于训练,我们合成了 200 个 FrontierSmith 问题,并在 Qwen3.5-9B 和 Qwen3.5-27B 上运行 GRPO。我们与几个对照组进行比较:在人类精选的 FrontierCS 问题上训练、在 ALE-bench 上训练、直接在 200 个封闭式 HardTests 问题上训练,以及在 FrontierCS 上使用随机奖励训练。
结果是直接的。FrontierSmith 生成的数据足够强大,可以匹配或超越人类精选的开放式训练数据。
对于 Qwen3.5-9B,基础模型在 FrontierCS 上的 Avg@5 得分为 1.80。使用 FrontierSmith 训练后提升至 10.62。在 ALE-bench 上,从 327.22 提升到 633.58。这接近于人类精选 FrontierCS 训练得到的 11.17 FrontierCS 分数,并且在 ALE-bench 上超越了 FrontierCS 训练(FrontierCS 训练模型达到 558.49)。
对于 Qwen3.5-27B,效果更强。FrontierSmith 将 FrontierCS 从 7.70 提升到 19.82,ALE-bench 从 352.52 提升到 661.64。在此设置中,FrontierSmith 在两个基准上都击败了人类精选 FrontierCS 训练的基线。
FrontierSmith 在 FrontierCS 和 ALE-bench 上提升了 Qwen3.5-27B,在此设置中超越了人类精选的 FrontierCS 训练数据。
使用 FrontierSmith 训练的 Qwen3.5-27B 在 FrontierCS 和 ALE-bench 上获得了所有比较训练源中最佳的 Avg@5 和 Best@5 结果。
封闭式控制组很重要。HardTests 是 FrontierSmith 使用的种子语料库。直接在这些封闭式问题上训练,Qwen3.5-9B 在 FrontierCS 上仅达到 5.38,ALE-bench 上达到 397.18,远低于 FrontierSmith 的 10.62 和 633.58。增益来自将封闭式任务转化为开放式优化问题,而非通用的编码 RL。
随机奖励也失败了:FrontierCS 仅达到 3.04,ALE-bench 376.82。这表明改进来自有意义的开放式奖励信号,而非单纯的任务格式暴露或 RL 动态。
我们还测试了筛选步骤。如果跳过 FrontierSmith 的筛选,直接基于变异问题构建训练环境,性能会下降:FrontierCS 从 10.62 降至 8.57,ALE-bench 从 633.6 降至 564.4。想法分歧筛选器移除了那些看似开放但实际解空间狭窄的候选。
筛选很重要:FrontierSmith 优于无筛选的合成数据和封闭式 HardTests 训练。
筛选提高了域内 FrontierCS 性能和跨基准 ALE-bench 的泛化能力。
最后,我们检查 FrontierSmith 任务是否确实诱导出长周期智能体行为。我们在 FrontierCS、FrontierSmith、HardTests 和 ALE-bench 上运行 Claude SDK(Sonnet 4.6)、Codex(GPT-5.5)和 Kimi Code(K2.6)。
FrontierSmith 表现得像一个真正的开放式数据源。Claude SDK 在 FrontierSmith 上达到 113 轮交互和 630 万 token,进入与 ALE-bench 相同的长周期区域。HardTests 保持短周期,而 FrontierCS 在此特定实验中更短。
FrontierSmith 具有高解空间多样性,并诱导出长周期智能体行为。
FrontierSmith 问题展现出强大的解空间多样性,并诱导现代代码智能体产生长周期行为。
我们发布的内容
FrontierSmith 为我们提供了一条实用的扩展路径。我们不需要等待人类专家手动编写数千个开放式任务。我们也不需要假装 LLM 可以从零发明高质量的工业优化问题。我们可以从已经存在的大量封闭式编码语料库开始,然后系统地将其转化为可训练、可评估、连续得分的开放式优化数据。
我们发布:
这是朝着长周期编码智能体所需的数据基础设施迈出的一步:这些任务没有单一最终答案,具有连续反馈,有意义的探索,以及足够的训练规模。
相似文章
FrontierSmith: 大规模合成开放式编程问题
FrontierSmith 自动从封闭式任务中生成多样化的开放式编程问题,通过增强的智能体交互和训练数据合成,提升 LLM 在基准测试中的编码性能。
@AlexGDimakis: 我对这项研究非常兴奋:我们展示了两个结果:1. 如果只进行随机采样(即独立尝试解决一个问题多次……
这项研究比较了AI编码智能体(如Claude-Code和Codex)与人类专家程序员在长期任务上的表现,结果表明由于持续学习,人类的表现呈超线性增长,而智能体则趋于平稳,这突显了当前AI在扩展问题解决方面的关键局限性。
@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题:当今最好的编码代理能打败公开发表的…
介绍了NatureBench,这是一个跨学科基准测试,包含来自Nature论文的90个任务,用于测试AI编码代理。研究发现,最好的代理(Claude Opus 4.7)仅在17.8%的任务上超越了现有最佳水平,而且其成功往往是通过将科学简化为监督式机器学习,而非真正的发现来实现的。
AI编程代理可自主指导机器人训练
使用开源ENPIRE框架的AI编码代理能够自主训练机器人执行如安装GPU和切割扎带等任务,系统可在一夜之间自我改进。
Codex 最大化
Jason Liu 分享了他如何使用 OpenAI 的 Codex 进行编码之外的知识工作,利用持久化线程、语音输入和引导将编码代理整合到他更广泛的工作流程中。