面向科学发现的评测驱动扩展

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

SimpleTES 框架将评测驱动的发现循环扩展到 21 个科学问题，在 LASSO 上实现 2× 加速，量子门数量减少 24.5%，并发现新的 Erdos 构造，同时支持轨迹级模型后训练。

语言模型越来越多地被用于科学发现，以生成假设、提出候选方案、实现系统并迭代优化。在这些试错循环的核心是评测：通过验证器、模拟器或任务特定评分函数获得候选方案反馈的过程。尽管先前工作强调了评测的重要性，但尚未明确阐述如何以原则化且高效的方式扩展评测驱动的发现循环，从而推动科学发现的边界，这正是本文试图解决的问题。我们提出简单测试时评测驱动扩展（SimpleTES）框架，通过策略性地结合并行探索、反馈驱动优化与局部选择，揭示沿正确维度扩展评测驱动发现循环所带来的显著收益。在涵盖六大领域的 21 个科学问题上，SimpleTES 基于 gpt-oss 模型发现最先进的解决方案，持续超越前沿模型基线和复杂优化管道。具体而言，我们将广泛使用的 LASSO 算法加速 2 倍以上，设计量子电路路由策略使门开销降低 24.5%，并发现超越已知最优结果的新 Erdos 最小重叠构造。除新发现外，SimpleTES 还生成轨迹级历史，天然支持反馈驱动学习。在成功轨迹上进行后训练后，模型不仅提升在已知问题上的效率，还能泛化到未知问题，发现基础模型无法找到的解决方案。综上，我们的结果确立有效的评测驱动循环扩展作为推进 LLM 驱动科学发现的核心轴，并提供简单实用的框架以实现这些收益。

查看原文

查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - 面向科学发现的评测驱动扩展

来源：https://huggingface.co/papers/2604.19341
作者：,,,,,,,,,,,,,,,,,,,,

摘要

SimpleTES 框架通过并行探索与反馈驱动的迭代，在科学问题上规模化评测驱动的发现闭环，在多个领域取得 SOTA 结果。

语言模型越来越多地用于科学发现：生成假设、提出候选方案、实现系统并持续迭代。试错闭环的核心是评测——借助验证器、模拟器或任务专用评分函数获取候选方案的反馈。尽管已有工作强调评测的重要性，但尚未系统研究如何原则且高效地规模化评测驱动的发现闭环（https://huggingface.co/papers?q=evaluation-driven%20discovery%20loops），以拓展科学发现的边界。本文提出Simple Test-time Evaluation-driven Scaling（SimpleTES），一个通用框架，策略性融合并行探索、反馈驱动精化与局部选择，揭示沿正确维度扩展评测驱动发现闭环带来的显著提升。在涵盖六大领域的 21 个科学问题上，SimpleTES 使用 gpt-oss 系列模型发现 SOTA 解，持续超越前沿模型基线与复杂优化管线。具体成果：将广泛使用的 LASSO 算法速度提升 2 倍以上；设计量子电路布线策略，门开销降低 24.5%；发现新的Erdös 最小重叠构造，超越已知最优结果。除新发现外，SimpleTES 生成轨迹级历史，天然监督反馈驱动学习。在成功轨迹上后训练后，模型不仅提升已知问题效率，还能泛化到未知问题，发现基模型无法找到的解。综上，我们确立高效评测驱动闭环扩展为推进LLM 驱动科学发现的核心轴，并提供简单实用的框架实现这些增益。

查看 arXiv 页面查看 PDF 项目主页添加到收藏

引用该论文的模型 0

暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2604.19341 即可在此显示。

引用该论文的数据集 0

暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19341 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2604.19341 即可在此显示。

包含该论文的收藏 0

暂无收藏包含此论文
新建收藏并添加此论文即可在此显示。

面向科学发现的评测驱动扩展

论文页面 - 面向科学发现的评测驱动扩展

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

科学发现作为元优化：一个组合优化案例研究

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

TEMPO：为大推理模型扩展测试时训练

等式发现中的饱和标度律：三个玩具基底与两个现实世界复现中的增长动力学现象学

LEAP：迭代科学设计中LLM的轨迹级评估

提交意见反馈