大型语言模型用于安全数据提取的基准测试
摘要
本文对四种大型语言模型(Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B)从安全数据表中提取结构化信息的能力进行了基准测试,发现基于文本的提取结合思维链提示可获得最高准确率(Gemini 1.5 Pro 为84%),但没有任何模型超过工业可靠部署所需的90%阈值。
查看缓存全文
缓存时间: 2026/06/11 13:35
# 大语言模型在安全数据表信息提取中的基准测试
来源:https://arxiv.org/html/2606.11204
\[2\]\\fnmThomas\\surBayer
1\]\\orgnameSAP SE, Germany 2\]\\orgnameInstitute for Digital Transformation, Ravensburg\-Weingarten University\\orcid: 0009\-0007\-4373\-7933
###### 摘要
从安全数据表(SDS)中准确提取结构化信息在工业安全领域仍然具有挑战性,原因在于文档格式的异构性以及传统基于规则方法的局限性。本研究对最先进的大语言模型(LLM)在自动化SDS数据提取方面进行了基准测试,比较了基于文本和多模态处理管道。我们系统评估了四种模型——Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet 和 Llama 3.1-70B——在三种提示策略下的表现:零样本、少样本和思维链。评估框架对超过50,000个提取的数据字段进行了准确性、延迟和成本评估。结果显示,在所有指标上,基于文本的提取始终优于多模态处理。结合思维链提示的 Gemini 1.5 Pro 达到了最高准确性(84%),优于 GPT-4o(81%)和 Claude 3.7 Sonnet(79%)。然而,没有模型超过实际部署通常要求的90%准确性阈值。这些发现表明,通用型LLM在无监督工业应用中尚不够稳健,尽管性能表明通过任务特定微调具有强大潜力。未来的研究应聚焦于领域适应性训练、模型校准以及人机协同验证的集成,以确保安全关键场景的可靠性。
###### 关键词:
大语言模型,安全数据表,信息提取,基准评估,提示工程
本稿件目前正在 Applied Intelligence 期刊审稿中。
## 1 引言
安全数据表(SDS)是工业环境中至关重要的监管文件,提供了关于危险物质、化学成分和保护措施的权威信息。它们是遵守国际标准如全球化学品统一分类和标签制度(GHS)以及欧盟REACH和CLP法规的基础\[EuropeanCommission2020,OccupationalSafetyHealth2012\]。尽管存在这些标准,但不同制造商的SDS在结构、术语和完整性上差异显著。因此,手动提取相关字段仍然成本高、耗时且易出错,限制了可扩展性并增加了安全关键误解的风险\[Khan2025,Matlhare2024\]。图1给出了一个SDS示例(https://arxiv.org/html/2606.11204#S1.F1)。
图1:SULFURIC ACID 1-51% 安全数据表(SDS)的示例页面,显示了与提取数据字段对应的标注区域。来源:Univar Solutions USA, Inc.\[univar2023sds\]
近年来,大语言模型(LLM)的进步为自动化SDS数据提取带来了有希望的机遇。基于Transformer的LLM\[10.5555/3295222.3295349\]展现出强大的语义和上下文推理能力,能够处理半结构化技术文档,超越了传统基于规则或OCR中心的系统\[Zhang2024,Dagdelen2024\]。它们的上下文学习能力允许无需重新训练即可实现任务特化,使其对文档异构性高的工业应用具有吸引力。
然而,它们在安全关键信息提取中的适用性在很大程度上仍未得到探索。现有研究提供了有限的证据,说明不同LLM在提取结构化SDS字段时的可靠性、基于文本和多模态处理的性能比较,以及零样本、少样本和思维链等提示技术对提取稳健性的影响\[Opitz2024,Vatsal2024,Sahoo2025,Schulhoff2025,Cheng2025\]。针对这些方面进行系统性、受控的基准测试尚未进行。
本文通过基准测试四种最先进的LLM(Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet 和 Llama 3.1-70B)在基于文本和多模态管道中的表现来填补这一空白。我们使用模式约束协议比较不同提示策略下的准确性、延迟和成本。我们分析提示如何影响提取质量。其余部分结构如下:第2节概述基础;第3节详述方法论;第4节呈现结果与讨论;第5节总结并展望未来工作。
## 2 相关工作
从安全数据表(SDS)中自动提取结构化信息已通过基于规则、机器学习和混合方法得以解决。早期大规模系统依赖结合OCR、模式匹配和神经网络的混合管道,以实现稳健的字段提取以满足监管合规\[fenton2021doceng,fenton2023acs,Khan2025\]。最近的机器学习方法侧重于高精度提取标准化SDS字段,如产品标识符、供应商和修订日期\[khan2025heliyon\],以及包括CAS号和浓度值在内的详细成分数据\[suman2024scirep\]。
随着大语言模型(LLM)的出现,生成式方法已被探索用于SDS和技术文档理解,在灵活的文本和表格提取方面展现出强大性能\[pekel2025gpt,moreira2024knime\]。调查研究确认了LLM在化学文本挖掘中日益主导的地位,同时强调了领域适应和验证的必要性\[schilling2025csr\]。此外,像ChemTEB这样的基准数据集突显了SDS特定语言的挑战,并展示了领域专用嵌入的优势\[mansouri2024chemteb\]。与统计方法互补,使用SHACL和SKOS的基于本体的表示能够实现提取SDS数据的语义验证和集成\[lu2025shacl\]。
## 3 方法论
我们提出了两种SDS数据提取管道的变体——基于文本的方法和基于图像的方法——旨在提高从PDF文档中提取结构化信息的效率和准确性。我们进一步引入了一个系统评估框架,用于在纯文本和多模态提取管道上对四种最先进的LLM进行基准测试。该框架明确分离了模型架构、预处理策略和提示方法对提取性能的影响,同时控制了数据集组成和输出模式的一致性。所有配置均在相同的SDS文档上使用标准化指标(准确性、延迟和计算成本)进行评估。以下部分描述了每种方法的设计,突出了它们各自的优势、局限性和技术权衡。
### 3.1 提示设计
提示工程在控制提取行为中起着核心作用。一个统一的模板结合了角色说明、任务描述、模式定义、提取规则和严格的格式约束。我们评估了三种提示策略:零样本、少样本、思维链,参见表1(https://arxiv.org/html/2606.11204#S3.T1)。这种设置隔离了提示技术如何影响准确性、误报和跨模型及模态的提取稳定性。
表1:提取管道中评估的提示策略概述。
根据提示策略的不同,每个提示结合了一个系统指令(任务定义、角色、输出格式、错误处理)和一个指定LLM结构化输出的JSON模式。零样本提示的示例见图2(https://arxiv.org/html/2606.11204#S3.F2),关于急救措施的SULFURIC ACID 1-51% SDS的JSON模式见图3(https://arxiv.org/html/2606.11204#S3.F3)。
图2:零样本提示:提示指定了提取任务、输入格式、模式约束和输出要求。
SDS提取提示
```
# 角色
您是安全数据表(SDS)数据提取方面高度胜任且精确的专家。
# 任务
根据提供的安全数据表(SDS)提取结构化数据,严格遵守下面的JSON模式。
# 模式
{schema}
# 输入
您将收到:
- 一份安全数据表(SDS)文档,以PDF文件或纯文本形式提供。
# 提取规则
- 仅从正确的SDS部分提取信息。不要使用其他部分的信息。
- 将每个值与模式中定义的字段精确匹配。
- 如果信息明确缺失:
- 对标量字段(字符串、数字、布尔值)使用"null"。
- 将所有Unicode字符转换为最接近的ASCII等效字符。
- 始终对JSON键和值使用双引号。
# 输出格式
- 输出必须仅为有效的JSON对象。
- 以{{开头,以}}结束输出。
- 不要包含Markdown、反引号、解释、模式重复、注释或额外文本。
```
图3:急救措施JSON
SULFURIC ACID 1-51% SDS的JSON模式结构示例。
```
{
"type": "object",
"properties": {
"World_First_Aid_Measures": {
"type": "object",
"properties": {
"First_Aid_Measures": {
"type": "object",
"properties": {
"General_Information": {
"type": "array",
"items": { "type": "string" }
},
...,
"Protection_of_First_Aid_Responders": {
"type": "array",
"items": { "type": "string" }
}
}
},
...,
"treatments": {
"type": "array",
"items": { "type": "string" }
}
}
}
}
}
```
### 3.2 数据处理管道
第一种方法采用PDF预处理管道,将PDF文档转换为结构化的Markdown表示。这种中间格式使得后续基于文本的LLM信息提取成为可能。第二种方法利用多模态LLM,允许系统直接处理并解释原始PDF中的文本内容,无需事先进行格式转换。
两种方法都产生结构化元数据和一个包含提取字段的JSON文档。它们的目标是简化提取流程,同时解决不同AI模型类别的架构和操作特性。
提取工作流程由五个连续阶段组成,将原始SDS文档转换为结构化的JSON输出,同时保持所有配置的可重复性。
1. **输入与预处理**:对于基于文本的提取,使用PyMuPDF4LLM提取原生PDF文本,并转换为Markdown,保留结构元素(标题、列表、章节边界)。对于多模态提取,PDF通过提供商的特定API直接传递给具备视觉能力的模型:作为二进制文件(Claude 3.7 Sonnet)、云URI(Gemini 1.5 Pro)或base64编码的JPEG图像(GPT-4o)。
2. **提示生成**:提示工程是引导提取行为的核心控制机制。所有实验设置均使用标准化的提示模板。该模板包括角色定义、任务说明、模式声明、提取约束和严格的输出格式要求。详情见第3.1节(https://arxiv.org/html/2606.11204#S3.SS1)。
3. **提取**:提示和预处理后的文档提交给LLM API。基于文本的请求通过SAP AI Core的编排服务路由;多模态请求直接调用提供商端点。处理时间被记录用于延迟测量。
4. **输出处理与后处理**:LLM返回一个符合预定义模式的结构化JSON对象,以及包含输入/输出token计数和处理时间戳的元数据。解析响应以提取有效的JSON内容。后处理包括移除Markdown围栏、模式验证和Unicode标准化。清理后的输出和相关元数据作为唯一标识的文件存储,以便后续评估和成本计算。
5. **数据处理**:返回的JSON与人工验证的真实值进行逐字段比较。对于每个字段,计算一个二进制匹配指示符(真/假),并在章节级别汇总以计算准确性。结果按每个SDS文档存储,允许计算所有提取章节的每文档准确性。然后对所有十个SDS文档的结果进行汇总,以计算每个模型-提示-方法配置的最终准确性。token元数据用于根据提供商特定定价计算每文档成本。最后,一个归一化成本函数结合准确性(权重0.7)、处理时间(权重0.2)和成本(权重0.1),得出一个统一的性能分数,用于对所有21种配置进行系统比较。
提取模式涵盖了广泛的SDS字段,涉及多种信息类型,包括文本、数字、表格和图形元素。SDS章节引入了不同的结构模式,从简单的键值对(例如,产品标识符或信号词)到描述化学成分、暴露限值和监管分类的嵌套列表(图1(https://arxiv.org/html/2606.11204#S1.F1))。
许多字段在语义上是密集的或多部分的,例如表格数据在单个单元格中混合了定量值、单位和限定词。示例包括浓度范围、暴露阈值以及同时编码多个监管系统的运输信息表。这些表格结构需要对格式进行一致性标准化。相似文章
评估大语言模型在社交媒体分析中的能力:多任务探索
犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
用于模式约束临床信息抽取的检索增强型大语言模型
本文提出了一种模块化的检索增强生成(RAG)流水线,用于从护理人员与患者的对话转录中提取结构化临床观察结果,采用模式约束提示和第二遍审核,基于Llama和GPT骨干模型,取得了80.36%的F1分数。
压力测试医学大语言模型揭示基准准确率之外的潜在安全病理
本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。
AI能猜出你知道什么吗?基于通信日志的人类领域知识估算中大语言模型的性能比较
本文研究了大语言模型是否能够从长期Slack日志中推断个人领域知识,比较了七种模型,发现Gemini 2.5 Flash误差最低,揭示了自动专家知识映射的可行性与局限性。