面向科学发现的评测驱动扩展

Hugging Face Daily Papers 论文

摘要

SimpleTES 框架将评测驱动的发现循环扩展到 21 个科学问题,在 LASSO 上实现 2× 加速,量子门数量减少 24.5%,并发现新的 Erdos 构造,同时支持轨迹级模型后训练。

语言模型越来越多地被用于科学发现,以生成假设、提出候选方案、实现系统并迭代优化。在这些试错循环的核心是评测:通过验证器、模拟器或任务特定评分函数获得候选方案反馈的过程。尽管先前工作强调了评测的重要性,但尚未明确阐述如何以原则化且高效的方式扩展评测驱动的发现循环,从而推动科学发现的边界,这正是本文试图解决的问题。我们提出简单测试时评测驱动扩展(SimpleTES)框架,通过策略性地结合并行探索、反馈驱动优化与局部选择,揭示沿正确维度扩展评测驱动发现循环所带来的显著收益。在涵盖六大领域的 21 个科学问题上,SimpleTES 基于 gpt-oss 模型发现最先进的解决方案,持续超越前沿模型基线和复杂优化管道。具体而言,我们将广泛使用的 LASSO 算法加速 2 倍以上,设计量子电路路由策略使门开销降低 24.5%,并发现超越已知最优结果的新 Erdos 最小重叠构造。除新发现外,SimpleTES 还生成轨迹级历史,天然支持反馈驱动学习。在成功轨迹上进行后训练后,模型不仅提升在已知问题上的效率,还能泛化到未知问题,发现基础模型无法找到的解决方案。综上,我们的结果确立有效的评测驱动循环扩展作为推进 LLM 驱动科学发现的核心轴,并提供简单实用的框架以实现这些收益。
查看原文
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - 面向科学发现的评测驱动扩展

来源:https://huggingface.co/papers/2604.19341
作者:,,,,,,,,,,,,,,,,,,,,

摘要

SimpleTES 框架通过并行探索与反馈驱动的迭代,在科学问题上规模化评测驱动的发现闭环,在多个领域取得 SOTA 结果。

语言模型越来越多地用于科学发现:生成假设、提出候选方案、实现系统并持续迭代。试错闭环的核心是评测——借助验证器、模拟器或任务专用评分函数获取候选方案的反馈。尽管已有工作强调评测的重要性,但尚未系统研究如何原则且高效地规模化评测驱动的发现闭环(https://huggingface.co/papers?q=evaluation-driven%20discovery%20loops),以拓展科学发现的边界。本文提出Simple Test-time Evaluation-driven Scaling(SimpleTES),一个通用框架,策略性融合并行探索反馈驱动精化与局部选择,揭示沿正确维度扩展评测驱动发现闭环带来的显著提升。在涵盖六大领域的 21 个科学问题上,SimpleTES 使用 gpt-oss 系列模型发现 SOTA 解,持续超越前沿模型基线与复杂优化管线。具体成果:将广泛使用的 LASSO 算法速度提升 2 倍以上;设计量子电路布线策略,门开销降低 24.5%;发现新的Erdös 最小重叠构造,超越已知最优结果。除新发现外,SimpleTES 生成轨迹级历史,天然监督反馈驱动学习。在成功轨迹上后训练后,模型不仅提升已知问题效率,还能泛化到未知问题,发现基模型无法找到的解。综上,我们确立高效评测驱动闭环扩展为推进LLM 驱动科学发现的核心轴,并提供简单实用的框架实现这些增益。

查看 arXiv 页面 查看 PDF 项目主页 添加到收藏

引用该论文的模型 0

暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2604.19341 即可在此显示。

引用该论文的数据集 0

暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19341 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2604.19341 即可在此显示。

包含该论文的收藏 0

暂无收藏包含此论文
新建收藏 并添加此论文即可在此显示。

相似文章

科学发现作为元优化:一个组合优化案例研究

arXiv cs.AI

本文提出将科学发现形式化为一个元优化问题,其中LLM通过相关性加权投票生成并聚合目标函数,应用于使用数字MemComputing的3-SAT算法发现,在大规模实例上实现了67倍的加速。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。

TEMPO:为大推理模型扩展测试时训练

Hugging Face Daily Papers

TEMPO 提出一种测试时训练框架,在策略微调与评判器再校准之间交替,防止多样性崩塌并持续放大推理模型的性能,将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。

LEAP:迭代科学设计中LLM的轨迹级评估

arXiv cs.LG

本文介绍了LEAPBench,一个包含55个任务的框架,用于对迭代科学设计中的LLM进行轨迹级评估。评估显示,基于结果的评分会遗漏效率提升,并且在匹配已发表的最佳设计时,领域无关提示可以优于领域感知提示。