SciCustom：一种面向大型语言模型科学能力定制评估的框架

arXiv cs.CL 2026/05/20 04:00 论文

摘要

SciCustom是一个从大规模数据中构建定制化科学基准的框架，无需专家标注即可对LLM的科学能力进行细粒度评估。它利用本体化知识单元和基于投票的共识机制来选取相关基准，并在化学和医疗领域进行了验证。

arXiv:2605.19357v1 公告类型：新论文摘要：大型语言模型（LLM）越来越多地应用于科学研究，然而现有的评估往往无法反映实际所需的细粒度能力。大多数基准是手动策划的或领域通用的，限制了可扩展性以及与真实科研用例的对齐。本文提出一个名为SciCustom的新框架来解决这一问题。它支持从大规模科学数据中定制构建基准，以评估LLM在特定应用中的科学能力。SciCustom首先将科学知识组织为具有可控粒度的本体化知识单元，并训练一个标注器将大规模数据实例映射到该知识空间。在给定定制需求后，通过基于投票的多模型共识识别相关知识单元。这些单元通过二分查找实现相关性感知的基准检索，随后进行代理子集选择和数据驱动的基准生成，以实现高效评估。在化学和医疗领域的实验表明，SciCustom能够揭示标准基准所忽视的LLM科学能力细粒度差异，且无需专家标注或合成问题生成。本工作为LLM科学能力的基准测试提供了可扩展且面向应用的基础。源代码位于https://github.com/yjwtheonly/SciCustom。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:25

# SciCustom：大型语言模型科学能力定制评估框架
来源：https://arxiv.org/html/2605.19357
Yiyang Gu¹, Junwei Yang¹∗, Junyu Luo¹, Ye Yuan¹, Bin Feng³, Yingce Xia², Shufang Xie², Kaili Liu⁴, Bohan Wu¹, Qi Shi⁵, Haoran Li⁵, Beier Xiao⁵, Zhiping Xiao⁶†, Xiao Luo⁷, Weizhi Zhang⁸, Philip S. Yu⁸, Zequn Liu²†, Ming Zhang¹†
¹ 多媒体信息处理国家重点实验室，计算机学院，北大安克大模型实验室，北京大学
² 中关村学院
³ IDEA
⁴ 西安电子科技大学
⁵ 北京大学
⁶ 华盛顿大学
⁷ 威斯康星大学麦迪逊分校
⁸ 伊利诺伊大学芝加哥分校
{yiyanggu,yjwtheonly,mzhang_cs}@pku.edu.cn,[email protected],[email protected]

###### 摘要
大型语言模型（LLM）正越来越多地应用于科学研究，然而现有的评估往往无法反映实际应用中所需的细粒度能力。大多数基准测试是手动整理或领域通用的，限制了可扩展性以及与真实科学用例的对齐。在本文中，我们提出了一个新框架 SciCustom 来解决这个问题。它能够从大规模科学数据中定制构建基准测试，以评估 LLM 在特定应用中的科学能力。SciCustom 首先将科学知识组织成具有可控粒度的基于本体的知识单元，并训练一个标注器将大规模数据实例映射到这个知识空间。给定一个定制需求，通过基于投票的多模型共识识别相关的知识单元。这些单元通过二分搜索实现相关性感知的基准测试检索，然后进行代理子集选择和基于数据的基准测试生成，以实现高效评估。在化学和医疗保健领域的实验表明，SciCustom 揭示了标准基准测试忽略的 LLM 科学能力中的细粒度差异，同时既不需要专家注释也不需要合成问题生成。这项工作为 LLM 的科学能力基准测试提供了一个可扩展且面向应用的框架。源代码可在 https://github.com/yjwtheonly/SciCustom 获取。

# SciCustom：大型语言模型科学能力定制评估框架
Yiyang Gu¹††感谢：贡献相等，顺序通过抛硬币决定。, Junwei Yang¹∗, Junyu Luo¹, Ye Yuan¹, Bin Feng³, Yingce Xia², Shufang Xie², Kaili Liu⁴, Bohan Wu¹, Qi Shi⁵, Haoran Li⁵, Beier Xiao⁵, Zhiping Xiao⁶††通讯作者。, Xiao Luo⁷, Weizhi Zhang⁸, Philip S. Yu⁸, Zequn Liu²†, Ming Zhang¹†
¹ 多媒体信息处理国家重点实验室，计算机学院，北大安克大模型实验室，北京大学
² 中关村学院
³ IDEA
⁴ 西安电子科技大学
⁵ 北京大学
⁶ 华盛顿大学
⁷ 威斯康星大学麦迪逊分校
⁸ 伊利诺伊大学芝加哥分校
{yiyanggu,yjwtheonly,mzhang_cs}@pku.edu.cn,[email protected],[email protected]

## 1 引言

参见说明 图1：SciCustom 的示意。(a) 传统现成基准测试与我们的本体驱动框架的比较。(b, c) 10个LLM在不同基准测试上的评估，每个点代表一个模型。针对技术化学中的特定能力，(b) 通用科学基准测试（GPQA Diamond）与专家真实情况对齐较差，而 (c) SciCustom 构建的基准测试显示出强对齐。

随着大型语言模型（LLM）的快速发展，它们在科学领域的应用显著扩展 [Chang et al. (2024)](https://arxiv.org/html/2605.19357#bib.bib69); [Bommasani et al. (2021)](https://arxiv.org/html/2605.19357#bib.bib54); [Birhane et al. (2023)](https://arxiv.org/html/2605.19357#bib.bib55); [Luo et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib50); [Yuan et al. (2024)](https://arxiv.org/html/2605.19357#bib.bib46); [Liu et al. (2023)](https://arxiv.org/html/2605.19357#bib.bib79); [Xia et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib80)。例如，一个基于LLM的系统成功提出了细菌中基因转移的新机制，复现了需要多年实验验证的结论 [Gottweis et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib67); [Penadés et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib68)。然而，随着科学家越来越希望利用LLM进行特定的科学应用，一个关键挑战出现了：给定LLM在特定科学背景下的性能在很大程度上不确定且难以评估 [Cai et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib71); [Singhal et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib57); [Miret and Krishnan (2025)](https://arxiv.org/html/2605.19357#bib.bib58); [Bedi et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib65)。尽管存在许多基准测试来评估模型能力的各个方面，但它们常常无法反映专业使用的需求 [Anjum et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib70); [Liang et al. (2023)](https://arxiv.org/html/2605.19357#bib.bib56); [Band et al. (2024)](https://arxiv.org/html/2605.19357#bib.bib66)。经验观察表明，在广泛使用的基准测试上的表现通常与在特定科学任务上的表现存在差异（图1 [b]），因此需要为特定科学应用定制基准测试 [Singhal et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib57); [Miret and Krishnan (2025)](https://arxiv.org/html/2605.19357#bib.bib58)。鉴于科学应用的广泛性和不断增长，为每个新用例手动整理基准测试是不切实际的 [Huang et al. (2021)](https://arxiv.org/html/2605.19357#bib.bib60); [Wu et al. (2018)](https://arxiv.org/html/2605.19357#bib.bib61)。一个可行的解决方案是自动化定制基准测试的构建过程 [Farchi et al. (2024)](https://arxiv.org/html/2605.19357#bib.bib72); [Li et al. (2025b)](https://arxiv.org/html/2605.19357#bib.bib32); [Chou et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib8); [Wang et al. (2025b)](https://arxiv.org/html/2605.19357#bib.bib9)。然而，开发这样的自动化框架面临两个挑战。首先，科学应用本质上复杂且高度跨学科。单个应用通常需要多个子领域的知识（例如，药物发现交织了有机化学、分子生物学和药理学 [Lu et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib73)），而不同的应用经常共享基础的知识（例如，药物发现和临床决策都需要药理学的知识 [Song et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib7); [Bi et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib6); [Ong et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib74)）。因此，为每个具体场景从头构建基准测试会导致大量的重复劳动，并限制框架的可扩展性 [Huang et al. (2021)](https://arxiv.org/html/2605.19357#bib.bib60); [Li et al. (2025a)](https://arxiv.org/html/2605.19357#bib.bib5)。其次，科学评估需要基于真实情况的有效性。高质量的评估数据通常来自昂贵的湿实验或计算模拟 [Chen et al. (2024)](https://arxiv.org/html/2605.19357#bib.bib4); [Ramos et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib3)，使得简单的通用数据合成方法不可行 [Parker (2020)](https://arxiv.org/html/2605.19357#bib.bib77); [Wei et al. (2024b)](https://arxiv.org/html/2605.19357#bib.bib1); [Chou et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib8); [Xu et al. (2025)](https://arxiv.org/html/2605.19357#bib.bib2)。为此，我们引入了 SciCustom，一个用于LLM科学能力定制评估的框架（图1 [a, c]）。关键思想是，一个复杂的科学应用可以通过细粒度知识单元的组成来近似。为了构建这些单元，我们从全面的科学本体中选择了642个代表性概念作为统一的知识单元。利用本体中丰富的层次信息，将特定科学概念与知识单元联系起来，我们训练了一个标注器自动将真实世界的科学语料与相应的知识单元对齐。这个离线过程一次性用可靠的科学数据填充每个知识单元。当用户提出评估需求时，SciCustom 识别相关的知识单元并编排一个层次化的检索过程来构建定制的基准测试。这些预先构建的知识单元的可组合性使得能够通过高效复用动态适应新的需求，确保了面向多样化下游应用的可扩展性。在化学和医疗保健领域的实验表明，我们自动构建的基准测试与专家整理的基准测试高度一致。此外，对于周环反应（一个缺乏现有基准测试的新科学应用），我们的框架成功生成了高质量的基准测试，为在不断扩展的科学研究领域中评估LLM提供了一个可扩展且可靠的解决方案。我们的贡献可以总结如下：
- • 我们提出了 SciCustom，一个将科学应用建模为可复用知识单元的组成来自动构建基准测试的框架，实现了对多样化下游任务的高效适配。
- • 我们开发了一个利用本体结构将大规模真实世界科学语料映射到知识单元的标注器，确保评估基于可验证的数据。
- • 在化学和医疗保健领域的实验证实了 SciCustom 与专家整理基准测试的强对齐，以及它在评估此前没有基准测试的新科学上下文中的能力。

## 2 方法论

参见说明 图2：SciCustom 的框架。它包含一个离线阶段，通过训练好的标注器将科学数据索引到基于本体的知识单元中；以及一个在线阶段，通过多模型投票解析用户需求以识别相关标签。这些标签指导基于二分搜索的数据选择和代理子集选择。基准测试的问题集基于这些数据生成。

### 2.1 概述
我们研究LLM的定制化科学能力评估问题。给定一个评估需求 \(r\) 和大量科学数据语料 \(\mathcal{D}\)，目标是构建一个反映 \(r\) 所需能力且无需专家注释的基准测试 \(\mathcal{B}_r\)。SciCustom 是一个用于此问题的自动化框架，通过离线数据索引和在线基于数据的生成阶段运行。在离线阶段，SciCustom 使用标注器将大规模科学数据表示在共享的知识单元内。该阶段将分散的科学内容组织成可复用的单元。在在线阶段，SciCustom 首先采用基于投票的多模型共识来识别与用户需求 \(r\) 相关的知识单元。在这些单元的引导下，该框架执行层次化的数据选择过程：检索候选数据，通过二分搜索进行过滤，并提取具有代表性的代理子集以生成最终的问题进行高效评估。SciCustom 的总体示意如图2所示。

### 2.2 基于本体的知识单元
为了实现科学知识的细粒度且可复用的建模，SciCustom 构建于一个结构化的科学本体之上，该本体作为知识定义和数据组织的统一语义骨干。遵循 [Liu et al. (2021)](https://arxiv.org/html/2605.19357#bib.bib25) 的研究，我们整合了多个权威知识库来构建一个大规模的科学本体，组织成覆盖 227 个科学子领域的有向无环图（DAG）集合。在每个 DAG 中，概念通过 *is-a* 关系相互连接，其中后代节点代表对其父概念更细粒度的专门化（例如，*有机化学* 是 *化学* 的一个后代节点）。我们从该本体中选择概念作为知识单元。知识单元既不应过于粗粒度也不应过于具体。过于粗粒度的概念缺乏区分细粒度模型能力的分辨率，而过于具体的概念则阻碍知识单元对更广泛应用的有效复用。我们凭经验选择粒度类似于“教科书章节标题”的概念。因此，我们通过对每个本体 DAG \(\mathcal{G}_i\) 进行深度优先遍历来捕获这些知识单元。在每个节点 \(v\) 处，LLM 根据术语名称、说明性示例及其对科学分类的先验知识来评估本体术语是否与粒度标准一致。

**算法 1** 本体引导的知识单元选择
**输入：** 本体 \(\{\mathcal{G}_i\}\)，**输出：** 单元集合 \(\mathcal{T}\)
1: \(\mathcal{T} \leftarrow \emptyset\)
2: **for each** 节点 \(v\) 在 \(\{\mathcal{G}_i\}\) 中被 DFS 访问 **do**
3:   **if** \(|Desc(v)| < 10\) **then**
4:     回溯
5:   **end if**
6:   label \(\leftarrow\) LLM 将 \(v\) 分类为 coarse, moderate, 或 fine
7:   **if** label 是 coarse **then**
8:     继续遍历（递归进入子节点）
9:   **else if** label 是 moderate **then**
10:     \(\mathcal{T} \leftarrow \mathcal{T} \cup \{v\}\)
11:  **else**
12:     回溯（若为 fine 则剪枝分支）
13:  **end if**
14: **end for**
15: **return** \(\mathcal{T}\)

参见说明 图3：用于标注器训练的合成数据构建流程示意。我们从本体中采样知识单元（绿色圆圈）并提取后代关键词（蓝色方块）。LLM 基于这些关键词生成一个自然语言查询，创建一个带标签的训练实例。

整体过程总结在算法1中，详细的提示策略见附录G。通过这个过程，我们获得了641个科学知识单元。我们还额外引入了一个专门的 *非科学* 单元，总共得到642个知识单元。这些单元定义了基于本体的科学知识空间，支撑了 SciCustom 中随后所有基准测试的构建。

### 2.3 将数据映射到知识单元
为了用可靠的科学数据填充识别出的知识单元，我们收集了一个包含跨不同科学领域的高质量问答（QA）对的大规模语料库。该语料库共包含 \(N\) 个数据实例，每个实例定义为 \(d = \langle q, a \rangle\)，其中 \(q\) 表示自然语言问题，\(a\) 表示对应的参考答案。这些实例最初是分散的，因此需要开发一个专门的科学标注器来将它们组织到知识单元中。为了实现高效的大规模标注，我们训练了一个小型语言模型作为标注器。该模型将每个查询 \(q\) 映射到知识单元的一个子集 \(\mathcal{T}_q \subseteq \mathcal{T}\)。这种设计在构建阶段实现了数据和知识单元之间的一次性映射，使得相同的已标注语料库可以跨不同的评估需求复用。用于训练标注器的监督数据采用两阶段策略构建。在第一阶段，我们通过对知识单元 \(\mathcal{T}\) 进行受控的组合采样来生成合成科学查询。

SciCustom：一种面向大型语言模型科学能力定制评估的框架

相似文章

科学写作评估的奖励建模

Elmes*：长尾教育场景下大型语言模型细粒度评估标准的自动构建

OpenCompass：大语言模型通用评测平台

实验还是结果？探测大语言模型中的科学可行性

SciPaths：预测科学发现的路径

提交意见反馈