IsoSci:用于评估LLM推理与知识检索的同构跨领域科学问题基准

arXiv cs.CL 论文

摘要

介绍IsoSci,一个由同构跨领域科学问题对组成的基准,用于在LLM评估中将推理能力与领域知识检索区分开来。研究发现91.3%的推理模式增益依赖于知识,挑战了关于思维链推理的常见假设。

arXiv:2607.01431v1 公告类型:新 摘要:我们推出了ISOSCI,一个由同构跨领域科学问题对组成的基准,用于在LLM评估中将推理能力与领域知识检索区分开来。每对问题具有相同的逻辑结构,但需要不同的领域特定知识,从而能够对推理模式增益进行受控归因。跨越四个模型家族的五个模型对中,我们发现91.3%的推理模式增益依赖于知识,而非结构不变性(63/69个增益;Wilson 95% CI [82.3%, 96.0%]),这直接挑战了“思维链推理能改善短期程序性科学问题解决”的假设。在高度能干的模型上启用推理,在所有领域中带来的准确率提升不到5个百分点。一个推理专用模型(o3-mini)在GPQA Diamond上比其标准版本高出19.2个百分点,但在ISOSCI上却低24.7个百分点,这表明基准的选择决定了关于推理实用性的结论。我们在https://huggingface.co/datasets/isosci/isosci 发布ISOSCI。
查看原文
查看缓存全文

缓存时间: 2026/07/03 05:40

# IsoSci:用于评估 LLM 中推理与知识检索的同构跨领域科学问题基准

来源:https://arxiv.org/html/2607.01431

Samir Abdaljalil  
电气与计算机工程系  
德克萨斯农工大学  
大学城,德克萨斯州,美国

Erchin Serpedin  
电气与计算机工程系  
德克萨斯农工大学  
大学城,德克萨斯州,美国

Hasan Kurban  
科学与工程学院  
哈马德·本·哈利法大学  
多哈,卡塔尔

###### 摘要

我们提出了IsoSci,一个同构跨领域科学问题对基准,用于将 LLM 评估中的推理能力与领域知识检索分离开来。每对问题共享相同的逻辑结构,但需要不同的领域特定知识,从而实现对推理模式增益的受控归因。跨越四个模型家族的五对模型,我们发现91.3%的推理模式增益依赖于知识而非结构不变性(63/69个增益;Wilson 95% CI [82.3%, 96.0%]),这直接挑战了链式思考推理能改善短跨度程序性科学问题求解的假设。在高能力模型上启用推理,在所有领域中的准确率提升不到 5 个百分点,而一个推理专用模型(o3-mini)在 GPQA Diamond 上表现优于其标准对应模型(+19.2pp),但在IsoSci上表现反而更差(-24.7pp),这表明基准选择决定了关于推理实用性的结论。我们在 https://huggingface.co/datasets/isosci/isosci 发布了IsoSci。

## 1 引言

大型语言模型的最新进展日益强调*推理*作为复杂任务性能的关键驱动因素[28 (https://arxiv.org/html/2607.01431#bib.bib28), 4 (https://arxiv.org/html/2607.01431#bib.bib4), 12 (https://arxiv.org/html/2607.01431#bib.bib12)]。诸如链式思考提示[26 (https://arxiv.org/html/2607.01431#bib.bib26)]、推理专用训练[21 (https://arxiv.org/html/2607.01431#bib.bib21), 24 (https://arxiv.org/html/2607.01431#bib.bib24)]和测试时计算扩展[19 (https://arxiv.org/html/2607.01431#bib.bib19)]等技术在 GPQA[18 (https://arxiv.org/html/2607.01431#bib.bib18)]、SciBench[23 (https://arxiv.org/html/2607.01431#bib.bib23)]和 MMLU-STEM[8 (https://arxiv.org/html/2607.01431#bib.bib8)]等基准上展现了显著提升。

问题在于这些基准将两种不同的能力混淆了:检索正确的领域特定知识,以及应用适当的推理过程来处理这些知识。当一个模型未能解决化学问题时,不清楚失败的原因是无法回忆起相关公式,还是无法执行所需的推理步骤。如果不将这两个因素解耦,一个基本问题就难以得到解答:*推理机制是否真正改进了推理本身,还是主要促进了知识利用?*

我们提出了IsoSci,一个同构跨领域科学问题对基准,旨在直接回答这个问题。每个问题都与一个来自不同科学领域的结构相同的对应问题配对:两者需要相同的逻辑和计算步骤序列,但依赖于完全不同的领域知识。如果一个模型在一道题上成功,但在其同构对应题上失败,那么这一差距必须归因于知识缺失,而非推理能力。

利用IsoSci,我们评估了跨越四个模型家族的五对模型,涵盖了传统推理与标准比较,以及基于切换的比较(同一模型,推理开启 vs. 关闭)。在跨越四个科学领域的 8,408 次评估中,我们发现91.3%的推理模式增益依赖于知识而非结构不变性(在所有五对模型中共 63/69 个增益;Wilson 95% CI [82.3%, 96.0%]),针对短跨度程序性科学问题。启用推理对高能力模型的整体准确率影响微乎其微(各领域低于 5 个百分点),而一个推理专用模型(o3-mini)在 GPQA 上优于其标准对应模型(+19.2pp),但在IsoSci上表现反而更差(-24.7pp),这表明基准选择决定了关于推理模型实用性的结论。

这些发现表明,在短跨度科学任务中,推理机制主要起到了*扩展的知识检索*作用,增加了在生成过程中浮现相关领域事实的概率,而非改进了逻辑过程执行。

#### 贡献。 (1) 一种构建同构跨领域科学问题对的方法,该方法在保持推理结构不变的同时改变领域知识,可应用于任何规模或领域。(2) p\_\{\text{know}\}指标(公式5 (https://arxiv.org/html/2607.01431#S4.E5)),将推理模式增益分解为知识依赖和结构不变两部分。(3) IsoSci,一个包含 144 对、覆盖四个科学领域的基准,基于 CC-BY-4.0 许可,提供了关于推理增益的知识依赖性、切换效应和基准依赖模型比较的实证结果。

## 2 相关工作

#### 大型语言模型中的推理。用于引出多步行为的方法包括链式思考提示[1 (https://arxiv.org/html/2607.01431#bib.bib1), 13 (https://arxiv.org/html/2607.01431#bib.bib13), 25 (https://arxiv.org/html/2607.01431#bib.bib25), 26 (https://arxiv.org/html/2607.01431#bib.bib26)]和测试时计算扩展[2 (https://arxiv.org/html/2607.01431#bib.bib2)]。这些方法的评估通常报告最终任务准确率的提升,将不同机制视为可互换的,而不分析它们如何改变中间计算、搜索和对记忆模式的依赖之间的平衡。对于科学推理,诸如 MMLU-STEM[8 (https://arxiv.org/html/2607.01431#bib.bib8)]、SciBench[23 (https://arxiv.org/html/2607.01431#bib.bib23)]和 GPQA[18 (https://arxiv.org/html/2607.01431#bib.bib18)]等基准覆盖了本科到研究生级别的科学问题,格式多样、难度各异,并被广泛用于追踪跨模型代的进展。然而,这些评估主要是聚合性的,对于模型成功或失败的根源提供甚少见解。

#### 解耦推理与知识。将 LLM 中的推理能力与知识分离开来仍然是一个开放问题[11 (https://arxiv.org/html/2607.01431#bib.bib11), 29 (https://arxiv.org/html/2607.01431#bib.bib29), 7 (https://arxiv.org/html/2607.01431#bib.bib7)]。链式思考分析表明中间步骤更像结构化记忆检索而非逻辑推理[9 (https://arxiv.org/html/2607.01431#bib.bib9), 10 (https://arxiv.org/html/2607.01431#bib.bib10), 26 (https://arxiv.org/html/2607.01431#bib.bib26)],并且已知基准性能对知识覆盖敏感[17 (https://arxiv.org/html/2607.01431#bib.bib17)]。最接近的同期工作是 Thapa 等人[20 (https://arxiv.org/html/2607.01431#bib.bib20)],他们训练了一个 PubMedBERT 分类器,将生物医学问答项目标记为推理密集型或知识密集型,发现仅 32.8% 需要多步推理,且模型在该子集上持续表现不佳。IsoSci在三个方面有所不同:我们通过设计构建了具有结构相同求解过程的匹配对,而非事后分类现有项目;我们的指标 p\_\{\text{know}\} 在配对级别操作,能够隔离增益是否跨领域转移,而分层级别准确率无法做到。

#### 基准设计与受控评估。近期工作通过对抗性过滤[18 (https://arxiv.org/html/2607.01431#bib.bib18)]、领域分层[8 (https://arxiv.org/html/2607.01431#bib.bib8)]和容差评分[23 (https://arxiv.org/html/2607.01431#bib.bib23)]改进了基准质量,解决了记忆化和评分数值问题[14 (https://arxiv.org/html/2607.01431#bib.bib14), 20 (https://arxiv.org/html/2607.01431#bib.bib20)]。但这些设计仍是聚合性的,并未控制项目间的求解过程。IsoSci通过同构跨领域对强制执行结构等价性来扩展这一方向,使得在推理需求固定时,性能可分解为知识依赖和结构不变两部分。

## 3 IsoSci 基准与评估协议

本节形式化定义了IsoSci基准和 p\_\{\text{know}\} 解耦指标。该基准在跨领域对中保持问题的推理结构不变,同时改变所需的领域知识,从而使两个成员之间的准确率差距归因于知识而非推理。发布的 144 对是该方法论的一个实例,可扩展到任何科学领域或规模。

### 3.1 符号与预备知识

设 D=\{phys, chem, bio, earth\} 表示四个科学*领域*(物理学、化学、生物学、地球科学)。设 S=\{s\_1, ..., s\_5\} 表示下面列出的五种*结构类型*。设 X 表示自然语言问题陈述的空间,Y 表示可接受答案的空间(多项选择字母、数值或短文本字符串)。一个*问题*是一个元组 q=(x\_q, a\_q, d\_q, s\_q) ∈ X×Y×D×S,包含文本 x\_q、标准答案 a\_q、领域 d\_q 和结构 s\_q;设 Q 表示所有这类问题的集合。对于 q∈Q,设 K(q) 表示解决 q 所需的*领域特定知识原子*集(公式、物理或化学常数、命名领域实体)。

设 M⊂D×D 表示所考虑的跨领域*映射*集,|M|=6 覆盖每对不同领域的无序对。设 F 表示被评估的 LLM 配置集;每个 f∈F 是一个(随机)映射,从提示到生成的字符串在 Y\* 上。我们定义*评估函数*:

E: F×Q → {0,1},  E(f, q) = 1{ extract( f( prompt( x\_q ) ) ) ≡ a\_q },    (1)

其中 prompt(·) 将 x\_q 包装在零样本链式思考模板中(第 4.3 节 (https://arxiv.org/html/2607.01431#S4.SS3)),extract(·) 应用第 4.3 节 (https://arxiv.org/html/2607.01431#S4.SS3) 的级联处理,≡ 对于字母或字符串是精确匹配,对于数值答案在 ±2% 相对容差内视为匹配。我们写 Π⊂F×F 表示所评估的*模型对*集;每个 (R,S)∈Π 中 R 处于推理配置,S 处于标准配置。

### 3.2 同构对的形式化定义

###### 定义 1(同构问题对)。两个问题 q, q'∈Q 构成一个*同构对*,记作 q≅q',当且仅当以下所有条件成立:

1. (i) d\_q ≠ d\_\{q'\}(不同领域);
2. (ii) s\_q = s\_\{q'\}(相同结构类型);
3. (iii) 存在一个双射 φ: K(q) → K(q'),使得 q' 的求解过程可通过将 q 中的每个 k∈K(q) 替换为 φ(k) 得到;
4. (iv) K(q) ∩ K(q') = ∅(知识集不相交)。

#### 结构类型 (S)。IsoSci限制在五种短跨度(3 到 5 个推理步骤)结构类型上,这些类型的双射 φ(定义 1 (https://arxiv.org/html/2607.01431#Thmdefinition1))易于验证:

1. 1.*公式回忆与代入*:回忆领域定律,代入给定值,计算(例如,理想气体定律、比尔-朗伯定律)。
2. 2.*单位转换链*:跨一系列转换的多步单位追踪。
3. 3.*守恒定律应用*:识别并应用守恒原理(能量、质量、电荷、动量)。
4. 4.*比例推理*:利用比率或缩放关系恢复未知量。
5. 5.*两步因果链*:定性推理,其中原因 A 导致效果 B,效果 B 导致效果 C,无数值计算。

表1 (https://arxiv.org/html/2607.01431#S3.T1) 展示了一个代表性对,其结构 s=公式回忆与代入,且在不相交知识集下有三步求解过程。

表 1:来自IsoSci 的示例同构对(物理学到化学映射)。两个问题共享结构类型公式回忆与代入,具有三步求解过程。知识集 K(q) 和 K(q') 不相交。

| 角色 | 问题 |
|------|------|
| 来源 q | 一个 2.0 mol 的理想气体样品在 300 K 时占据 49.2 L。压力是多少(单位:atm)?(需要:PV=nRT;R=0.0821 L·atm/mol·K) |
| 目标 q' | 弱酸 HA 溶液浓度为 C=0.10 M,酸解离常数 Ka=1.8×10^{-5}。pH 是多少?(需要:pH=-log√(Ka C)) |
| 结构 s | 回忆公式 → 代入值 → 计算 |
| 领域 (d\_q, d\_\{q'\}) | 物理学(热力学) → 化学(酸碱) |

### 3.3 数据集构建

构建分为三个阶段,总结如下:Q^seed → 生成 Q^cand → 验证 Q^pass → 平衡 IsoSci。

#### 阶段 1:种子收集。种子池 Q^seed 汇总了来自 GPQA Diamond[18 (https://arxiv.org/html/2607.01431#bib.bib18)] (n=198)、SciBench[23 (https://arxiv.org/html/2607.01431#bib.bib23)] (n=585) 和 MMLU-STEM[8 (https://arxiv.org/html/2607.01431#bib.bib8)] (n=1,532) 的 2,315 个项目。地球科学种子在这些来源中缺失,因此用 claude-sonnet-4-5 合成生成(96 个问题;提示在附录 B.4 (https://arxiv.org/html/2607.01431#A2.SS4)),共得 2,411 个问题。通过令牌重叠去重(Jaccard>0.40)得到 |Q^seed|=2,190 个独特问题(物理学 867,化学 639,生物学 588,地球科学 96)。

#### 阶段 2:同构伙伴生成。对于每个映射 (d, d')∈M,我们从 {q∈Q^seed : d\_q=d} 中最多采样 n\_seed=25 个种子,并提示 claude-sonnet-4-5 为每个种子生成 n\_cand=3 个候选目标问题 q',满足定义 1 (https://arxiv.org/html/2607.01431#Thmdefinition1) 中条件 (i) 到 (iv),基于源结构 s\_q(提示在附录 B.2 (https://arxiv.org/html/2607.01431#A2.SS2))。这得到 |Q^cand|=429 个跨 M 的候选对。

#### 阶段 3:自动验证。由三个法官组成的委员会,J={claude-sonnet-4-5, GPT-4o-mini, DeepSeek-V3},基于四个标准对每个候选打分:

相似文章

SciR:用于LLMs科学推理的可控基准

arXiv cs.AI

SciR是一种新的可控基准,用于评估LLMs在科学推理方面的能力,包括演绎、归纳和因果溯因,并通过参数控制提取难度和推理难度。测试表明,两个难度轴都会降低所有模型的性能,推理模型(如DeepSeek-R1)在推理方面优于指令模型。