SciRisk-Bench:面向AI4Science安全的风险维度感知基准

arXiv cs.AI 论文

摘要

本文介绍了SciRisk-Bench,这是一个用于在AI4Science场景下评估大语言模型安全的基准,涵盖7个学科、31个子学科和10个风险维度,以同时评估科学能力和风险意识。

arXiv:2606.18936v1 公告类型:新 摘要:大型语言模型(LLMs)正日益融入AI for Science(AI4Science)工作流,涵盖科学问答、文献分析、实验室规划及自主发现等环节。这一进展迫切需要安全基准,不仅要评估科学能力,还要评估模型是否能在高风险科学情境中识别并规避风险。现有的AI4Science安全数据集覆盖了若干学科和任务格式,但潜在的风险维度尚未明确。我们介绍了\textbf{SciRisk-Bench},这是一个从互补的两个视角——显式风险维度和科学学科——来评估AI4Science安全的基准。SciRisk-Bench涵盖7个学科、31个子学科和10个风险维度。在实验部分,我们评估了主流LLMs和面向科学的LLMs在风险维度、学科和子学科上的表现,从而能够精细诊断科学模型在哪些方面仍然不安全。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:41

# SciRisk-Bench: 面向AI4Science安全的风险维度感知基准
来源: https://arxiv.org/html/2606.18936
Linghao Feng1,2,\*Yinqian Sun1,\*Dongqi Liang1,3Sicheng Shen1,2,4Chenfei Yan1Yuxuan Peng8Yilin Zhao1Haibo Tong1,2Kai Li7FeiFei Zhao1,†\{\\dagger\}Yi Zeng1,5,6,7,†\{\\dagger\}1类脑认知智能实验室, 中国科学院自动化研究所, 北京, 中国2中国科学院大学未来技术学院, 中国3中国科学院大学人工智能学院, 中国4中关村学院, 中国5北京安全人工智能与超对齐重点实验室6中国人民大学高瓴人工智能学院7北京人工智能安全与治理研究所 (Beijing-AISI)8中国科学院大学人文学院, 中国\*同等贡献。†\{\\dagger\}通讯作者。[email protected]@ruc.edu.cn

###### 摘要

大型语言模型 (LLM) 日益深入地嵌入到人工智能驱动科学 (AI4Science) 的工作流程中,从科学问答、文献分析,到实验室规划与自主发现。这一进展迫切要求建立安全基准,不仅评估科学能力,更要评估模型在高风险科学情境中识别并规避风险的能力。现有的AI4Science安全数据集覆盖了若干学科和任务格式,但潜在的风险维度仍缺乏明确定义。我们提出 SciRisk-Bench,这是一个旨在从两个互补视角评估AI4Science安全的基准:显式风险维度和科学学科。SciRisk-Bench 涵盖 7 个学科、31 个子学科和 10 个风险维度。在实验部分,我们从风险维度、学科和子学科三个层面评估了主流LLM和面向科学的LLM,从而实现了对科学模型不安全行为根源的细粒度诊断。

SciRisk-Bench: 面向AI4Science安全的风险维度感知基准

Linghao Feng1,2,\*Yinqian Sun1,\*Dongqi Liang1,3Sicheng Shen1,2,4Chenfei Yan1Yuxuan Peng8Yilin Zhao1Haibo Tong1,2Kai Li7FeiFei Zhao1,†\{\\dagger\}Yi Zeng1,5,6,7,†\{\\dagger\}1类脑认知智能实验室, 中国科学院自动化研究所, 北京, 中国 2中国科学院大学未来技术学院, 中国 3中国科学院大学人工智能学院, 中国 4中关村学院, 中国 5北京安全人工智能与超对齐重点实验室 6中国人民大学高瓴人工智能学院 7北京人工智能安全与治理研究所 (Beijing-AISI) 8中国科学院大学人文学院, 中国 \*同等贡献。†\{\\dagger\}通讯作者。 [email protected]@ruc.edu.cn

## 1 引言

AI4Science 已成为加速科学发现的核心范式。近期系统已证明,基于机器学习和LLM的方法能够辅助数学程序搜索 (Romera-Paredes等人,2024 (https://arxiv.org/html/2606.18936#bib.bib1)),并发现高效算法 (Mankowitz等人,2023 (https://arxiv.org/html/2606.18936#bib.bib2))。在材料科学中,AI支持了大规模材料发现 (Merchant等人,2023 (https://arxiv.org/html/2606.18936#bib.bib3)) 和自主合成 (Szymanski等人,2023 (https://arxiv.org/html/2606.18936#bib.bib4))。在生物学中,AlphaFold 变革了蛋白质结构预测 (Jumper等人,2021 (https://arxiv.org/html/2606.18936#bib.bib5)),后续工作将生物分子建模扩展至更广泛的分子复合物 (Krishna等人,2024 (https://arxiv.org/html/2606.18936#bib.bib6))。在地球科学中,基础模型已被提出用于天气和气候建模 (Nguyen等人,2023 (https://arxiv.org/html/2606.18936#bib.bib7)),神经预报系统在中期天气预报中表现出色 (Lam等人,2023 (https://arxiv.org/html/2606.18936#bib.bib8))。基础模型也正进入通用医疗AI领域 (Moore等人,2023 (https://arxiv.org/html/2606.18936#bib.bib9)) 和临床知识推理 (Singhal等人,2023 (https://arxiv.org/html/2606.18936#bib.bib10))。随着LLM成为科学知识、工具和协议的自然语言接口,它们越来越多地介导着可能影响实验室、公共卫生、关键基础设施和科学治理的决策。

这种不断扩大的角色使得AI4Science安全成为一个独特且紧迫的评估问题。科学错误并非仅限于普通的事实性错误:一个不安全的答案可能提供可操作的双用途细节,忽略实验室安全注意事项,夸大不确定的证据,暴露私人或敏感数据,错误表述法规,或给出看似权威实则错误的解释。先前研究表明,AI系统可能放大药物发现中的双用途风险 (Urbina等人,2022 (https://arxiv.org/html/2606.18936#bib.bib11)),并在医学影像中依赖误导性的捷径 (DeGrave等人,2021 (https://arxiv.org/html/2606.18936#bib.bib12))。针对化学领域的提示攻击进一步暴露了分子表示中的安全漏洞 (Wong等人,2024 (https://arxiv.org/html/2606.18936#bib.bib13)),而合成生物学与AI的融合则引发了更广泛的监管和安全担忧 (Hynek, 2025 (https://arxiv.org/html/2606.18936#bib.bib14))。通用的LLM安全基准有其价值,但科学环境需要专门的评估,因为风险与领域专长、实验背景和监管约束紧密耦合。

一些基准已开始填补这一空白。SciBench 评估大学级别的科学问题解决能力 (Wang及其他人,2023 (https://arxiv.org/html/2606.18936#bib.bib15)),ScienceQA 专注于多模态科学问答 (Lu等人,2022 (https://arxiv.org/html/2606.18936#bib.bib16)),SciEval 针对多层次科学研究评估 (Sun等人,2024 (https://arxiv.org/html/2606.18936#bib.bib18)),SciKnowEval 衡量多层次科学知识 (Feng等人,2024 (https://arxiv.org/html/2606.18936#bib.bib19))。安全导向的努力也已出现:ChemSafetyBench 针对化学安全 (Zhao及其他人,2024 (https://arxiv.org/html/2606.18936#bib.bib20)),MedSafetyBench 评估有害医疗请求 (Han等人,2024 (https://arxiv.org/html/2606.18936#bib.bib21)),LabSafetyBench 聚焦实验室安全 (Zhou等人,2024 (https://arxiv.org/html/2606.18936#bib.bib22)),SciSafeEval 评估科学安全对齐 (Li等人,2024b (https://arxiv.org/html/2606.18936#bib.bib23)),WMDP 衡量恶意使用知识 (Li等人,2024a (https://arxiv.org/html/2606.18936#bib.bib24)),SOSBench 研究基于科学知识的安全对齐,并考虑法律和监管依据 (Jiang等人,2025 (https://arxiv.org/html/2606.18936#bib.bib25)),SafeScientist 评估风险感知的科学智能体 (Zhu等人,2025 (https://arxiv.org/html/2606.18936#bib.bib26))。然而,现有大多数基准仍然强调学科覆盖或广义的安全类别。它们难以提供关于每个学科内部哪种类型的安全风险会驱动不安全行为的可见性。

我们提出 SciRisk-Bench,一个面向AI4Science安全的风险维度感知基准。SciRisk-Bench 跨越七个科学学科,包括生物学、化学、地理学、工程学和物理学等领域,并覆盖从合成生物学、有机合成到地理信息系统和核物理等代表性子学科。完整的学科层次结构在方法部分描述。与先前主要将科学安全视为领域级问题的工作不同,SciRisk-Bench 通过风险维度对示例进行显式标注。例如,“双用途”捕捉可导致有害误用的科学知识,“实验室安全”关注实验环境中遗漏的注意事项,“幻觉与误解”涵盖自信但错误的科学主张。这种设计使得评估不仅能回答“哪个学科不安全?”,还能回答“哪种风险机制导致了失败?”

我们的实验从风险维度、学科和子学科三个层面评估了主流LLM和面向科学的LLM,结果显示,尽管科学专门化模型在领域流畅性上更强,但其攻击成功率 (ASR) 往往更高。

本工作的贡献如下:

- •我们提出 SciRisk-Bench,一个同时覆盖多个科学子学科和显式风险维度的AI4Science安全基准。
- •我们引入了一个两层分类体系,支持按风险机制和科学学科进行分析,使失败比仅按学科评估更具可解释性。
- •我们从风险维度和学科层面评估了主流LLM和面向科学的LLM,为细粒度的安全诊断提供了基础。

参见说明图1:SciRisk-Bench 构建与评估流程概览。提示按科学学科和风险维度组织,模型响应基于不安全科学行为进行评判,ASR 按多个粒度报告。
## 2 相关工作

#### 科学能力基准。

早期的AI4Science评估主要集中在科学知识、推理和问题解决上。SciBench 衡量大学级别的科学问题解决能力 (Wang及其他人,2023 (https://arxiv.org/html/2606.18936#bib.bib15));ScienceQA 评估带解释的多模态科学问答 (Lu等人,2022 (https://arxiv.org/html/2606.18936#bib.bib16));GPQA 针对研究生级别、专家编写的问题 (Rein等人,2023 (https://arxiv.org/html/2606.18936#bib.bib17));SciEval 提供多层次科学研究评估 (Sun等人,2024 (https://arxiv.org/html/2606.18936#bib.bib18));SciKnowEval 衡量多层次科学知识 (Feng等人,2024 (https://arxiv.org/html/2606.18936#bib.bib19))。这些数据集对于衡量模型是否理解科学概念很重要,但面向正确性的评估不足以实现安全。一个模型可能解决科学问题,同时仍然产生实际有害、不合规、侵犯隐私或具有误导性的输出。

#### 领域特定的AI4Science安全基准。

近期工作已开始为高风险科学领域构建安全基准。ChemSafetyBench 评估LLM在化学领域的安全,包括管制物质和危险合成情境 (Zhao及其他人,2024 (https://arxiv.org/html/2606.18936#bib.bib20))。MedSafetyBench 关注有害医疗请求和安全响应行为 (Han等人,2024 (https://arxiv.org/html/2606.18936#bib.bib21))。LabSafetyBench 评估实验室危险识别、后果推理和应急响应 (Zhou等人,2024 (https://arxiv.org/html/2606.18936#bib.bib22))。这些工作表明,科学安全需要领域知识,不能简化为通用的拒绝行为。然而,许多领域特定的数据集仍集中在化学、医学或生物学,天文学、地理学、数学、工程学和物理学等传统科学的系统性覆盖不足。

#### 跨学科与红队基准。

跨域安全基准拓宽了AI4Science评估的范围。SciSafeEval 整合了跨科学模态和领域的对抗性提示 (Li等人,2024b (https://arxiv.org/html/2606.18936#bib.bib23))。WMDP 衡量生物学、化学、网络及相关安全背景中的恶意使用知识 (Li等人,2024a (https://arxiv.org/html/2606.18936#bib.bib24))。SOSBench 以法律和监管为依据,对科学知识进行安全对齐基准测试 (Jiang等人,2025 (https://arxiv.org/html/2606.18936#bib.bib25))。SafeScientist 评估LLM智能体的风险感知科学发现能力 (Zhu等人,2025 (https://arxiv.org/html/2606.18936#bib.bib26))。通用安全基准提供了补充信号:TruthfulQA 关注事实性虚假信息 (Lin等人,2021 (https://arxiv.org/html/2606.18936#bib.bib27)),HaluEval 评估幻觉 (Li等人,2023 (https://arxiv.org/html/2606.18936#bib.bib28)),HarmBench 支持自动红队和拒绝评估 (Mazeika等人,2024 (https://arxiv.org/html/2606.18936#bib.bib29)),SafetyBench 评估广泛的安全行为 (Zhang等人,2024 (https://arxiv.org/html/2606.18936#bib.bib30))。然而,这些资源通常不提供科学学科与具体风险维度之间的细粒度映射。SciRisk-Bench 通过将风险维度作为首要组织轴来补充这些工作。

#### 基准可靠性与安全测量。

越来越多的研究警告,安全基准可能奖励肤浅的拒绝或狭隘的基准博弈,而非真正的风险意识 (Ren等人,2024 (https://arxiv.org/html/2606.18936#bib.bib31))。这一担忧在AI4Science中尤其重要:过度拒绝可能使模型在良性研究中无法使用,而拒绝不足可能暴露有害细节。SciRisk-Bench 旨在通过分离失败模式来支持更具诊断性的评估。例如,幻觉、权威膨胀、隐私泄露、实验室安全遗漏和双用途泄露不应被合并为一个单一的安全分数,因为每种情况都需要不同的缓解策略。

表1:SciRisk-Bench 的风险维度。该基准引入了显式风险注释,使模型失败的可解释性超越学科层面的聚合。参见说明图2:按风险维度的模型级ASR热力图。列代表个别模型,行代表风险维度;颜色越暖表示ASR越高。左侧区块为主流模型,右侧区块为科学专门化模型。

## 3 SciRisk-Bench

SciRisk-Bench 围绕两个互补的轴组织:风险维度和科学学科。风险维度轴捕捉模型响应可能变得不安全的机制。学科轴捕捉风险出现的科学背景。这种设计支持跨风险类型的横向比较和跨科学子领域的纵向比较。

该数据集包含 350 个示例,涵盖 7 个学科和 31 个子学科。按学科分,包括 58 个数学示例,化学、生物学、天文学和物理学各 50 个,地理学 47 个,工程学 45 个。按风险维度分,最大的类别是幻觉与误解 (118 个示例),其次是双用途 (53 个),边缘放大 (38 个),知识截止漂移 (27 个),监管盲点 (27 个),实验室安全 (26 个),安全遗漏 (25 个),权威膨胀 (17 个),隐私泄露 (11 个),以及地缘政治敏感性 (8 个)。这种分布反映了该基准既强调科学特定的误用风险,也强调在科学工作流中可能变得安全关键的更广泛可靠性风险。

### 3.1 科学学科与子学科

SciRisk-Bench 使用两层学科层次结构,使安全失败比仅使用宽泛的领域标签更具可操作性。该基准涵盖 7 个学科和 31 个子学科;完整的子学科索引见附录中的表2 (https://arxiv.org/html/2606.18936#A1.T2)。这个层次结构很重要,因为不同的子学科暴露不同的风险机制。例如,病原体、毒素和药理学可能测试模型是否泄露双用途生物学知识或遗漏防护要求,而生态学和进化生物学可能涉及

相似文章

介绍 LifeSciBench

OpenAI Blog

OpenAI 推出 LifeSciBench,这是一个包含 750 个专家编写任务的基准测试,用于评估 AI 系统在现实生命科学研究工作流中的表现,包括证据处理、分析和科学推理。

AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现

arXiv cs.AI

AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。

SciR:用于LLMs科学推理的可控基准

arXiv cs.AI

SciR是一种新的可控基准,用于评估LLMs在科学推理方面的能力,包括演绎、归纳和因果溯因,并通过参数控制提取难度和推理难度。测试表明,两个难度轴都会降低所有模型的性能,推理模型(如DeepSeek-R1)在推理方面优于指令模型。

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。