实验还是结果？探测大语言模型中的科学可行性

arXiv cs.CL 2026/04/22 04:00 论文

摘要

UMBC 研究人员发现，大语言模型在判断科学主张是否可行时，依据结果数据比依据实验描述更准确；不完整的实验背景反而会降低准确率。

arXiv:2604.18786v1 公告类型：新摘要：科学可行性评估旨在判断某一主张是否与已有知识一致，以及实验证据能否支持或反驳该主张。我们将可行性评估框定为一种诊断推理任务：给定假设，模型需预测其可行或不可行，并给出理由。我们在受控知识条件下（仅假设、附带实验、附带结果，或两者兼具）评估大语言模型（LLM），并通过逐步删除实验和/或结果背景的部分内容来测试鲁棒性。在多个 LLM 和两个数据集上，提供结果证据通常比提供实验描述更可靠。结果往往能在内部知识之外进一步提升准确率，而实验文本可能脆弱，在背景不完整时反而降低性能。这些发现阐明了实验证据何时能惠及基于 LLM 的可行性评估，以及何时会引入脆弱性。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:29

# 实验还是结果？探测大语言模型中的科学可行性  
来源：https://arxiv.org/html/2604.18786  
Seyedali Mohammadi, Manas Gaur, Francis Ferraro  
马里兰大学巴尔的摩郡分校，美国 MD  
{m294,manas,ferraro}@umbc.edu

###### 摘要  

科学可行性评估旨在判断某一主张是否与已有知识一致，以及实验证据能否支持或反驳该主张。我们将可行性评估视为一种诊断推理任务：给定假设，模型预测“可行”或“不可行”并给出理由。在受控知识条件下（仅假设、含实验、含结果、或两者皆备）评估大语言模型（LLM），并通过逐步删减实验/结果上下文来探测鲁棒性。跨多个 LLM 与两个数据集的实验表明，提供结果证据通常比提供实验描述更可靠。结果能持续提升准确率，而实验文本可能脆弱，在上下文不完整时反而降低性能。这些发现厘清了实验证据何时有助于基于 LLM 的可行性评估，何时又带来脆弱性。

实验还是结果？探测大语言模型中的科学可行性  
Seyedali Mohammadi, Manas Gaur, Francis Ferraro  
马里兰大学巴尔的摩郡分校，美国 MD  
{m294,manas,ferraro}@umbc.edu

## 1 引言  

尽管 LLM 已可用于文献综述、假设生成、实验规划等科学工作流（Eger 等，2025；Zheng 等，2025），其执行一项基本科学任务——科学可行性评估——的能力仍鲜有人研究。科学可行性评估判断某主张是否与既有知识一致，并能否设计具体实验加以支持或反驳。该任务需要对实验设计、预期结果及证据一致性进行诊断推理。

见题注  
图 1：科学可行性评估的受控证据框架。给定假设，从源论文抽取的实验与结果分别披露，k₁ 控制实验显示比例，k₂ 控制结果显示比例。模型基于所给证据预测可行性。示例假设与源论文均取自 Nakamura 等（2020）。LLM 预测器与抽取器图标由 ChatGPT 协助生成。图 2 展示“每天多喝一杯水可降低血压”这一主张：其可行性取决于评估具体试验（如补水随机对照试验）及其结果是否与假设效应一致。即便有相关试验，也可能因结果混杂、剂量不符（一杯 vs. 数升）、终点差异而存疑。可见可行性取决于“哪些”实验与结果，而非仅检索相关论文。

尽管 LLM 科学应用研究日增，现有工作要么聚焦假设生成而非评估（Qi 等，2023；Yang 等，2024；Liu 等，2025），要么将模型内部知识与检索混合而不区分何时何者足够（Jansen 等，2025；Rao 等，2025），或在非科学场景下检验对外部标签定义的遵循（Mohammadi 等，2025）。这留下三个关键问题未解：  
RQ1：LLM 能否仅凭参数知识评估可行性？  
RQ2：提供显式实验上下文（仅实验、仅结果、或两者）如何改变可行性判断？  
RQ3：当实验信息不完整时，这些判断是否鲁棒？  

我们通过受控知识框架回答上述问题：在保持预测任务不变的前提下，系统改变伴随假设的上下文。

主要贡献：  
1. 受控知识框架，量化实验与结果如何偏移可行性判断；  
2. 稳定性分析，衡量信息缺失时的鲁棒性。  

我们发现：对齐证据可提升准确率，但部分证据常有害，甚至低于仅假设基线，且退化常呈非单调，表明模型采用脆弱、表面化的对齐推理，而非优雅地处理不确定性。代码、提示与评估脚本已开源：https://github.com/mohammadi-ali/scify。

## 2 问题定义  

我们将*科学可行性评估*形式化为在*受控知识*下对假设的结构化预测问题。令 h 表示科学假设（主张）。每个实例标注有真实可行性标签 y*∈Y，Y={可行,不可行}。若可用，实例还包含一组*源实验* E* 及其*报告结果* O*，从数据集提供的源论文中抽取（非检索）。我们采用二分类设定作为受控诊断场景，而非完整科学判断模型，且与数据集标注模式一致。

#### 模型预测  

给定假设 h 与可选上下文 x，参数为 θ 的 LLM f_θ 输出标签 ŷ∈Y 与简短理由 ê。上下文 x 用于控制提供哪些实验证据。

受控知识框架：  
我们在四种条件下评估模型，变化可选上下文 x：  
- H（仅假设）：x=∅，模型仅依赖参数知识，作为所有增广设置的基准。  
- H+E（假设+实验）：x=E*，提供实验描述但*无*结果，测试模型能否基于设计推理潜在结果。  
- H+O（假设+结果）：x=O*，仅提供结果摘要，测试无需实验过程能否解读证据。  
- H+E+O（假设+实验+结果）：x=(E*,O*)，完整实验上下文，代表理想情况。  

四种设置下预测任务*完全相同*：对假设 h 输出 (ŷ,ê)，仅 x 不同。该设计可直接比较：预测差异仅反映实验证据影响，而非任务变化。

稳定性分析（部分信息鲁棒性）：  
真实科研常面临证据不完整。我们引入*稳定性分析*：逐步删减实验与结果，观察模型判断如何退化，揭示其是（i）单调退化（证据减少则性能平滑下降），还是（ii）脆性崩溃（性能骤降或非单调），从而判断是否过度依赖特定证据。

部分披露参数：  
令 k₁∈[0,1] 表示实验披露比例，k₂∈[0,1] 表示结果披露比例。我们在 k₁,k₂∈{0,0.5,1.0} 三档评估。对给定 (k₁,k₂)，上下文为 x_{k₁,k₂}=(E_{k₁},O_{k₂})，其中 |E_{k₁}|=⌊k₁·|E*|⌋，O_{k₂} 同理。

采样策略：  
当 k₁<1 或 k₂<1 时，无放回均匀随机采样。为减小采样方差：(a) 每个实例 h 与每个 (k₁,k₂) 配置生成 R=5 份独立样本；(b) 报告 R 份样本的均值与标准差；(c) 随机种子固定以保证可复现（见附录 A.1）。

特例：  
(k₁,k₂) 框架涵盖四种设置：H 为 (0,0)；H+E 为 (1,0)；H+O 为 (0,1)；H+E+O 为 (1,1)。

稳定性指标：  
对每个数据集计算：  
(a) 退化曲线：准确率/MCC 随披露水平变化；  
(b) 低于基线率：性能低于 k₁=k₂=0（H 基线）的 (k₁,k₂) 配置占比。非单调退化（如 k₁=0.5 比 k₁=0 更差）或低于 H 基线，表明部分证据*误导*而非帮助，提示表面化对齐而非鲁棒推理。

评估：  
我们从可行性标签与自然语言解释两个维度评估。对有真实标签的样本，报告整体准确率、宏平均 F1 与 MCC（更适合类别不平衡）。对含黄金解释的 Matter-of-Fact 数据集，采用轻量级词汇重叠比较模型理由与参考解释。该指标仅作诊断信号，不衡量逻辑有效性或科学合理性。

## 3 实验设置与方法  

模型：  
评估多个不同能力层级的专有 LLM，以检验发现是否跨规模与厂商稳健。具体使用 gpt-5.1 与 gpt-4o、Gemini-2.5-Pro（gem-pro）与 Gemini-2.5-Flash（gem-flash）、Grok-4.1-fast（grok）。选型支持两类对照：(i) 同厂商前沿 vs. 高效模型；(ii) 跨厂商可行性判断一致性。所有模型使用相同任务指令输出可行性标签与简短理由。

数据集：  
聚焦那些可行性判断依赖假设与结构化科学证据之间关系、而非表面事实正确性或引用匹配的基准。故选取证据结构支持不同不确定性水平下可行性推理的数据集。

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应，评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现，虽然 LLM 能捕捉方向性效应和聚合信念更新模式，但它们的效应大小与人类尺度不一致，这有助于澄清合成 LLM 数据何时可以作为行为代理。

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

Hugging Face Daily Papers

研究者采用基于LRP的对比归因方法，分析大模型在现实基准中失败的原因，发现该方法在某些场景下能提供有用信号，但并非始终可靠。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理，发现赋予角色的大语言模型真实性辨别能力最多下降9%，并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%，而基于提示的去偏见方法基本无效。

言过其实：量化大语言模型认知-修辞失准的框架

arXiv cs.CL

提出一套量化框架，揭示 LLM 如何借修辞手段夸大确定性，并发现跨模型的认知-修辞失准共性。

MeasHalu：通过增强推理缓解大语言模型的科学测量幻觉

arXiv cs.CL

# MeasHalu：通过增强推理缓解大语言模型的科学测量幻觉来源：[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

赋予角色的大型语言模型表现出类似人类的动机推理

言过其实：量化大语言模型认知-修辞失准的框架

MeasHalu：通过增强推理缓解大语言模型的科学测量幻觉

提交意见反馈