通过比较性想法评估训练语言模型预测研究成功

arXiv cs.LG 2026/05/22 04:00 论文

摘要

本文探讨了通过比较成对想法来训练语言模型预测研究想法实证成功的方法。利用来自PapersWithCode的11,488个想法对数据集，作者表明微调（SFT）将准确率提升至77.1%，超越了GPT-5，而使用可验证奖励的强化学习达到了71.35%的准确率，并具有可解释的推理过程。

arXiv:2605.21491v1 公告类型：新摘要：随着语言模型通过自动化假设生成与实施加速科学研究，一个新的瓶颈浮现：如何在不进行详尽实验的情况下评估和过滤数百个AI生成的想法。我们探讨语言模型是否能够在任何实验进行之前学习预测研究想法的实证成功。我们研究比较性实证预测：给定一个特定基准的研究目标和两个候选想法，预测哪个能取得更好的基准性能。我们构建了一个基于PapersWithCode客观结果的11,488个想法对数据集。虽然现成的8B参数模型表现不佳（30%准确率），但SFT（微调）大幅提升了性能至77.1%，超越了GPT-5（61.1%）。通过将评估框架化为一个推理任务，使用可验证奖励的强化学习（RLVR），我们训练模型发现潜在推理路径，达到了71.35%的准确率，并具有可解释的理由。通过额外的消融实验和分布外测试，我们展示了对表面启发式的鲁棒性，以及向跨领域时间分割测试集和独立构建测试集的迁移能力。我们的结果表明，计算高效的小型语言模型可以作为有效、客观的验证器，为自主科学发现提供一条可扩展的路径。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:46

# 通过比较性想法评估教会语言模型预测研究成功

**来源：** https://arxiv.org/html/2605.21491

Srujan P Mule¹˒², Aniketh Garikaparthi², Manasi Patwardhan²

¹印度科学教育与研究学院浦那分校 ²塔塔咨询服务研究院

[email protected]  
{aniketh.g, manasi.patwardhan}@tcs.com

###### 摘要

随着语言模型通过自动化假设生成与实现加速科学研究，新的瓶颈已然出现：如何在无需详尽实验的情况下，评估并筛选数百个人工智能生成的想法。我们探究语言模型是否能在运行任何实验之前，学会预测研究想法在经验上的成功。我们研究*比较性实证预测*：给定一个特定基准的研究目标以及两个候选想法，预测哪个想法能取得更好的基准性能。我们构建了一个包含11,488个想法对的数据集，这些对基于PapersWithCode上的客观结果。虽然现成的80亿参数模型表现不佳（准确率30%），但监督微调（SFT）显著提升至77.1%，超越了GPT-5（61.1%）。通过将评估框架化为一个推理任务，结合可验证奖励的强化学习（RLVR），我们训练模型发现潜在的推理路径，在提供可解释理由的前提下达到71.35%的准确率。通过额外的消融实验和分布外测试，我们展示了对表面启发式方法的鲁棒性，并验证了向跨领域时间分割测试集以及独立构建的测试集的迁移能力。我们的结果表明，计算高效的小语言模型能够充当有效、客观的验证器，为自主科学发现提供了一条可扩展的路径。

---

## 1 引言

参见图1的标题

**图1：** 我们探索了多种基于所构建数据集微调80亿参数语言模型的方法。该图展示了我们微调后的模型准确判断科学想法质量的潜力。对于给定的两个基准和一个重叠方法，我们的模型能够稳健地预测在基准背景下哪个想法表现更佳，同时提供有洞察力的推理依据。

语言模型正开始充当自主研究代理，它们能生成假设、运行实验并分析结果（Lu et al., 2024; Yamada et al., 2025; Gridach et al., 2025）。这些系统中的一个常见模式是高通量构思，即模型针对某个科学目标生成数百个候选方法（Baek et al., 2025; Si et al., 2024; Garikaparthi et al., 2025）。这种规模使得筛选“好想法”变得至关重要，因为运行数百个实验是不可行的。然而，当前的评估方法依赖于语言模型对*主观*标准（如“令人兴奋”、“创新性”或“新颖性”）的判断（Wang et al., 2024; Baek et al., 2025; Hu et al., 2024）。尽管这些指标有用，但它们往往只是代理指标；一个想法可能新颖且论证充分，但在实践中却仍然失败（Si et al., 2024; Zhu et al., 2025）。这一差距促使我们研究*比较性实证预测*：给定一个研究目标和两个候选想法，预测哪个想法在基准评估中会取得更好的表现。虽然这些客观结果非常难以预测，但研究人员通常会根据先前工作中的模式形成有用的直觉来进行预测。我们探究能否训练语言模型内化此类先验知识，并在运行实验*之前*区分两个竞争想法。潜在地，这样的验证器模型可以通过成对比较来筛选出更强的想法，从而缩小需要实现的候选范围，以此补充生成器模型的规模。尽管近期工作已开始通过构建想法比较数据集（Wen et al., 2025）来探索这一方向，但我们的目标是推动这一设定朝以下方向发展：(i) 针对特定基准的*细粒度预测*，而非粗略聚合；(ii) 广泛可及的*计算高效*模型；(iii) 能够阐明预测背后直觉的*可解释推理*。图1展示了我们微调后的80亿参数模型如何在基准背景下进行细粒度预测，同时生成富有洞察力的推理来支持其预测。

为了支持这一任务，我们构建了一个大规模数据集，通过爬取公开基准排行榜来检索相关论文，并提取出：(a) 特定基准的研究目标，(b) 代表竞争想法的描述，以及 (c) 决定胜负的实证分数。这产生了11,488个标注好的想法对，涵盖724个有效的基准排行榜，并基于客观结果。作为第一步，我们将*比较性实证预测*视为一个直接的偏好预测问题，并对语言模型进行微调以输出二元的胜者标签。这种黑盒形式遵循先前工作（Wen et al., 2025）作为一个简单基线。进一步地，为了鼓励并捕获中间推理，我们采用了一个两阶段训练过程。首先，在两个包含推理轨迹和标签的精选数据集上进行监督微调（SFT）：一个是从大型教师模型获得的人工合成子集；另一个是基于论文内容的更小集合。然后，使用强化学习变体（Jia et al., 2025; Shao et al., 2024; Yu et al., 2025）进行微调，让模型探索并发现导致正确预测的推理路径。我们的结果表明，基础模型表现挣扎（Qwen3-8B仅达到20.13%的准确率），而监督微调显著提升了性能（77.1%）。训练后可输出可解释推理的变体达到了71.35%的准确率，以超过10个百分点的优势优于GPT-5（61.10%），同时计算效率显著更高且更具可解释性。我们的模型对释义测试、时效性、长度和位置偏差的鲁棒性测试表现稳健，表明它们理解了真正的任务，而非学习表面启发式方法。我们的主要贡献包括：

- • 我们引入了一个大规模的研究想法对数据集，包含*特定基准*的研究目标和结果，支持细粒度的比较性预测（§4）。
- • 我们证明了80亿参数模型在经过微调后，能在比较性科学预测上超越甚至前沿模型（§7.1），并展现出向非NLP基准和外部构建数据集的非平凡跨领域泛化能力。
- • 我们展示了通过精心设计的强化学习训练，模型能够生成连贯的解释来证明其预测的合理性（§7.3）。
- • 我们分析了在释义和表述变化下的鲁棒性，以评估模型是否依赖脆弱的启发式方法（§7.4）。最后，我们提出了关于自身工作优势与不足的见解，为科学预测领域的未来工作指明了方向。

## 2 问题陈述

我们正式定义该问题如下：设 \(\mathcal{H}\) 为科学假设（想法）空间，\(\mathcal{G}\) 为研究目标空间，\(\mathcal{C}\) 为推理轨迹空间。我们构建一个数据集 \(\mathcal{D} = \{g, h_A, h_B, (c), y\}\)，其中 \(h_A\) 和 \(h_B \in \mathcal{H}\) 是两个竞争想法的文本描述，\(g \in \mathcal{G}\) 是实施这些想法的特定研究目标（例如，使用One class SVM vs CNN-BiLSTM，目标是检测高容量网络流量中的现代网络威胁，同时最小化误报），\(y \in \{0,1\}\) 是一个二元标签，其中 \(y=0\) 表示 \(h_A\) 在目标 \(g\) 上优于 \(h_B\)，\(c \in \mathcal{C}\) 表示一个可选的思维链，解释为何一个想法优于另一个。我们的目标是学习一个参数化策略 \(\pi_\theta\)，该策略能在给定想法和目标上下文的情况下准确预测 \(y\)，并在预测前生成思维链推理轨迹 \(c\)。

## 3 相关工作

##### 研究构思
研究构思本质上语言密集，因此从LLM的进步中受益显著（Wang等人，2024；Baek等人，2025；Si等人，2024）。近期工作利用前沿LLM，通过检索（Li等人，2024）、测试时计算（Hu等人，2024）或多智能体辩论（Su等人，2025）来辅助构思。相比之下，很少有工作微调开源模型以改进研究构思（O’Neill等人，2025）。关键的是，这些想法常常无法转化为现实世界中的实证改进（Zhu等人，2025；Si等人，2025）。

##### 评估方法论
大多数系统使用由检索或智能体增强的LLM评判器来评估候选方案（Baek等人，2025；Garikaparthi等人，2025）。评估通常基于评分标准，侧重于新颖性、可行性和清晰度（Li等人，2024），偶尔通过人工研究进行校准（Si等人，2024）。方法论上，评分依赖于绝对评级（Baek等人，2025）或聚合的成对排名（Si等人，2024；Garikaparthi等人，2025）。能够奖励超越表面合理性的客观表现的验证器在很大程度上仍未得到充分探索（Wen等人，2025）。

##### 用于预测的LLM
LLM已展现出作为现实世界事件预测者的潜力，接近具有竞争力的人类众包基准（Halawi等人，2024；Karger等人，2025）。有几项工作针对此类任务进行了专门训练（Lee等人，2025；Chandak等人，2025）。与我们的设定最接近的是预测*实证机器学习结果*的努力：Wen等人（2025）训练GPT-4.1从成对中预测表现更好的想法，而Park等人（2025）则在不进行实验的情况下从文本描述估计基准分数。

---

参见图2的标题

**图2：** 数据集构建流程。我们使用来自1,918个NLP排行榜的原始条目，构建具有统计基础的想法对，并附上特定基准的研究目标，同时通过难度分层确保跨不同研究目标的稳健评估。

## 4 基准

我们基准中的每个样本包括：(i) **想法对**：两个竞争方法（\(idea_A\), \(idea_B\)）的详细描述，基于其科学出版物；(ii) **研究目标**：关于基准具体评估目标的清晰陈述，这些想法是针对该基准实施的；(iii) **二元标签**：一个标签（0或1），指示哪个想法在该特定基准上获得了更高的实证分数。

我们开发了一个流程来构建想法对的基准数据集，将原始排行榜转化为统计上合理的比较。该过程包括：

##### 爬取与论文收集。
我们从活跃排行榜的条目中提取想法，这使得我们能够为每个基准构建特定的比较。因此，与并行工作（Wen等人，2025）相比，我们的评估变得更为细粒度，后者可能由于通过多数投票聚合跨多个基准的分数而混淆评估。我们首先爬取paperswithcode.com上所有至少有两个条目的NLP排行榜。这产生了1,918个基准排行榜。对于每个排行榜中的条目，我们识别出参考的论文，得到5,713篇结果报告（RR）论文（排除7篇付费论文）。我们观察到，在某些情况下，RR论文并非介绍该方法的*原始*论文，而是使用该方法在基准上报告结果的论文。依赖这些论文进行想法提取（将在后续阶段进行）会导致通用或不完整的描述。因此，我们提示一个LLM（Gemini-2.5-pro，提示见附录C）来验证每篇RR论文是否是*最初*介绍该想法的论文，如果不是，则查看RR论文的全文，查找引用和参考文献部分以找到原始论文。我们还要求LLM报告其分析的置信度（高/中/低）。然后，两位NLP专家手动处理低置信度的条目，以验证所识别的原始论文引用，并在必要时进行更正。基于此分析，我们额外下载了908篇原始论文。所有下载的论文都使用s2orc-doc2json¹进行解析，将全文转换为Markdown格式，为后续处理提供整洁且结构化的输入。解析错误无法解决的论文被丢弃，最终得到5,695篇RR论文和832篇原始论文的Markdown文件。

¹https://github.com/allenai/s2orc-doc2json

##### 研究目标与想法提取。
对于1,918个排行榜中的每一个，我们按以下来源顺序从官方基准描述中提取一个规范的研究目标：(1) paperswithcode.com上的数据集页面，(2) 来自pwc-archive²的相应数据集文件，或 (3) 当上述来源不可用时的RR论文（针对278个基准）。提取的文本描述被输入LLM（提示见附录C），由LLM生成包括基准评估内容在内的清晰、全面的研究目标。有327个基准因缺少或无法使用的来源而被跳过。我们使用LLM处理每个排行榜条目对应的RR论文和原始论文的Markdown文件，提取详细的想法，排除任何细节、实证结果、比较、唯一标识符（如作者/模型名称、年份等）。LLM（提示见附录C）可以访问完整的论文上下文，捕获所有必要细节。

通过比较性想法评估训练语言模型预测研究成功

相似文章

@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%，匹配…

评估大型语言模型的创造力：测试、局限与新前沿

如何微调推理模型？一个教师-学生协作框架用于合成学生一致的SFT数据

多语言思维，而非更难的思维：教授推理模型代码切换的数据高效框架

世界模型与语言模型相遇：论具体推理与抽象推理的互补性

提交意见反馈