大型语言模型用于安全数据提取的基准测试

arXiv cs.CL 2026/06/11 04:00 论文

benchmarking llm safety-data-extraction information-extraction prompt-engineering nlp industrial-safety

摘要

本文对四种大型语言模型（Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B）从安全数据表中提取结构化信息的能力进行了基准测试，发现基于文本的提取结合思维链提示可获得最高准确率（Gemini 1.5 Pro 为84%），但没有任何模型超过工业可靠部署所需的90%阈值。

arXiv:2606.11204v1 公告类型：新摘要：由于文档格式异构以及传统基于规则的方法的局限性，从安全数据表（SDS）中准确提取结构化信息在工业安全领域仍然具有挑战性。本研究对用于自动化SDS数据提取的最先进大型语言模型（LLM）进行了基准测试，比较了基于文本和多模态处理流程。我们系统性地评估了四种模型：Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet 和 Llama 3.1-70B，采用了三种提示策略：零样本、少样本和思维链。评估框架在超过50,000个提取数据字段上评估了准确性、延迟和成本。结果显示，在所有指标上，基于文本的提取始终优于多模态处理。Gemini 1.5 Pro 结合思维链提示达到了最高准确率（84%），优于 GPT-4o（81%）和 Claude 3.7 Sonnet（79%）。然而，没有模型超过实际部署通常要求的90%准确率阈值。这些发现表明，通用型LLM尚不足以用于无监督的工业应用，但性能显示出通过任务特定微调的巨大潜力。未来研究应聚焦于领域自适应训练、模型校准，以及人机协同验证的集成，以确保安全关键可靠性。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:35

# 大语言模型在安全数据表信息提取中的基准测试
来源：https://arxiv.org/html/2606.11204

\[2\]\\fnmThomas\\surBayer

1\]\\orgnameSAP SE, Germany 2\]\\orgnameInstitute for Digital Transformation, Ravensburg\-Weingarten University\\orcid: 0009\-0007\-4373\-7933

###### 摘要

从安全数据表（SDS）中准确提取结构化信息在工业安全领域仍然具有挑战性，原因在于文档格式的异构性以及传统基于规则方法的局限性。本研究对最先进的大语言模型（LLM）在自动化SDS数据提取方面进行了基准测试，比较了基于文本和多模态处理管道。我们系统评估了四种模型——Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet 和 Llama 3.1-70B——在三种提示策略下的表现：零样本、少样本和思维链。评估框架对超过50,000个提取的数据字段进行了准确性、延迟和成本评估。结果显示，在所有指标上，基于文本的提取始终优于多模态处理。结合思维链提示的 Gemini 1.5 Pro 达到了最高准确性（84%），优于 GPT-4o（81%）和 Claude 3.7 Sonnet（79%）。然而，没有模型超过实际部署通常要求的90%准确性阈值。这些发现表明，通用型LLM在无监督工业应用中尚不够稳健，尽管性能表明通过任务特定微调具有强大潜力。未来的研究应聚焦于领域适应性训练、模型校准以及人机协同验证的集成，以确保安全关键场景的可靠性。

###### 关键词：

大语言模型，安全数据表，信息提取，基准评估，提示工程

本稿件目前正在 Applied Intelligence 期刊审稿中。

## 1 引言

安全数据表（SDS）是工业环境中至关重要的监管文件，提供了关于危险物质、化学成分和保护措施的权威信息。它们是遵守国际标准如全球化学品统一分类和标签制度（GHS）以及欧盟REACH和CLP法规的基础\[EuropeanCommission2020,OccupationalSafetyHealth2012\]。尽管存在这些标准，但不同制造商的SDS在结构、术语和完整性上差异显著。因此，手动提取相关字段仍然成本高、耗时且易出错，限制了可扩展性并增加了安全关键误解的风险\[Khan2025,Matlhare2024\]。图1给出了一个SDS示例（https://arxiv.org/html/2606.11204#S1.F1）。

图1：SULFURIC ACID 1-51% 安全数据表（SDS）的示例页面，显示了与提取数据字段对应的标注区域。来源：Univar Solutions USA, Inc.\[univar2023sds\]

近年来，大语言模型（LLM）的进步为自动化SDS数据提取带来了有希望的机遇。基于Transformer的LLM\[10.5555/3295222.3295349\]展现出强大的语义和上下文推理能力，能够处理半结构化技术文档，超越了传统基于规则或OCR中心的系统\[Zhang2024,Dagdelen2024\]。它们的上下文学习能力允许无需重新训练即可实现任务特化，使其对文档异构性高的工业应用具有吸引力。

然而，它们在安全关键信息提取中的适用性在很大程度上仍未得到探索。现有研究提供了有限的证据，说明不同LLM在提取结构化SDS字段时的可靠性、基于文本和多模态处理的性能比较，以及零样本、少样本和思维链等提示技术对提取稳健性的影响\[Opitz2024,Vatsal2024,Sahoo2025,Schulhoff2025,Cheng2025\]。针对这些方面进行系统性、受控的基准测试尚未进行。

本文通过基准测试四种最先进的LLM（Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet 和 Llama 3.1-70B）在基于文本和多模态管道中的表现来填补这一空白。我们使用模式约束协议比较不同提示策略下的准确性、延迟和成本。我们分析提示如何影响提取质量。其余部分结构如下：第2节概述基础；第3节详述方法论；第4节呈现结果与讨论；第5节总结并展望未来工作。

## 2 相关工作

从安全数据表（SDS）中自动提取结构化信息已通过基于规则、机器学习和混合方法得以解决。早期大规模系统依赖结合OCR、模式匹配和神经网络的混合管道，以实现稳健的字段提取以满足监管合规\[fenton2021doceng,fenton2023acs,Khan2025\]。最近的机器学习方法侧重于高精度提取标准化SDS字段，如产品标识符、供应商和修订日期\[khan2025heliyon\]，以及包括CAS号和浓度值在内的详细成分数据\[suman2024scirep\]。

随着大语言模型（LLM）的出现，生成式方法已被探索用于SDS和技术文档理解，在灵活的文本和表格提取方面展现出强大性能\[pekel2025gpt,moreira2024knime\]。调查研究确认了LLM在化学文本挖掘中日益主导的地位，同时强调了领域适应和验证的必要性\[schilling2025csr\]。此外，像ChemTEB这样的基准数据集突显了SDS特定语言的挑战，并展示了领域专用嵌入的优势\[mansouri2024chemteb\]。与统计方法互补，使用SHACL和SKOS的基于本体的表示能够实现提取SDS数据的语义验证和集成\[lu2025shacl\]。

## 3 方法论

我们提出了两种SDS数据提取管道的变体——基于文本的方法和基于图像的方法——旨在提高从PDF文档中提取结构化信息的效率和准确性。我们进一步引入了一个系统评估框架，用于在纯文本和多模态提取管道上对四种最先进的LLM进行基准测试。该框架明确分离了模型架构、预处理策略和提示方法对提取性能的影响，同时控制了数据集组成和输出模式的一致性。所有配置均在相同的SDS文档上使用标准化指标（准确性、延迟和计算成本）进行评估。以下部分描述了每种方法的设计，突出了它们各自的优势、局限性和技术权衡。

### 3.1 提示设计

提示工程在控制提取行为中起着核心作用。一个统一的模板结合了角色说明、任务描述、模式定义、提取规则和严格的格式约束。我们评估了三种提示策略：零样本、少样本、思维链，参见表1（https://arxiv.org/html/2606.11204#S3.T1）。这种设置隔离了提示技术如何影响准确性、误报和跨模型及模态的提取稳定性。

表1：提取管道中评估的提示策略概述。

根据提示策略的不同，每个提示结合了一个系统指令（任务定义、角色、输出格式、错误处理）和一个指定LLM结构化输出的JSON模式。零样本提示的示例见图2（https://arxiv.org/html/2606.11204#S3.F2），关于急救措施的SULFURIC ACID 1-51% SDS的JSON模式见图3（https://arxiv.org/html/2606.11204#S3.F3）。

图2：零样本提示：提示指定了提取任务、输入格式、模式约束和输出要求。
SDS提取提示
```
# 角色
您是安全数据表（SDS）数据提取方面高度胜任且精确的专家。

# 任务
根据提供的安全数据表（SDS）提取结构化数据，严格遵守下面的JSON模式。

# 模式
{schema}

# 输入
您将收到：
- 一份安全数据表（SDS）文档，以PDF文件或纯文本形式提供。

# 提取规则
- 仅从正确的SDS部分提取信息。不要使用其他部分的信息。
- 将每个值与模式中定义的字段精确匹配。
- 如果信息明确缺失：
  - 对标量字段（字符串、数字、布尔值）使用"null"。
- 将所有Unicode字符转换为最接近的ASCII等效字符。
- 始终对JSON键和值使用双引号。

# 输出格式
- 输出必须仅为有效的JSON对象。
- 以{{开头，以}}结束输出。
- 不要包含Markdown、反引号、解释、模式重复、注释或额外文本。
```

图3：急救措施JSON
SULFURIC ACID 1-51% SDS的JSON模式结构示例。
```
{
  "type": "object",
  "properties": {
    "World_First_Aid_Measures": {
      "type": "object",
      "properties": {
        "First_Aid_Measures": {
          "type": "object",
          "properties": {
            "General_Information": {
              "type": "array",
              "items": { "type": "string" }
            },
            ...,
            "Protection_of_First_Aid_Responders": {
              "type": "array",
              "items": { "type": "string" }
            }
          }
        },
        ...,
        "treatments": {
          "type": "array",
          "items": { "type": "string" }
        }
      }
    }
  }
}
```

### 3.2 数据处理管道

第一种方法采用PDF预处理管道，将PDF文档转换为结构化的Markdown表示。这种中间格式使得后续基于文本的LLM信息提取成为可能。第二种方法利用多模态LLM，允许系统直接处理并解释原始PDF中的文本内容，无需事先进行格式转换。

两种方法都产生结构化元数据和一个包含提取字段的JSON文档。它们的目标是简化提取流程，同时解决不同AI模型类别的架构和操作特性。

提取工作流程由五个连续阶段组成，将原始SDS文档转换为结构化的JSON输出，同时保持所有配置的可重复性。

1. **输入与预处理**：对于基于文本的提取，使用PyMuPDF4LLM提取原生PDF文本，并转换为Markdown，保留结构元素（标题、列表、章节边界）。对于多模态提取，PDF通过提供商的特定API直接传递给具备视觉能力的模型：作为二进制文件（Claude 3.7 Sonnet）、云URI（Gemini 1.5 Pro）或base64编码的JPEG图像（GPT-4o）。
2. **提示生成**：提示工程是引导提取行为的核心控制机制。所有实验设置均使用标准化的提示模板。该模板包括角色定义、任务说明、模式声明、提取约束和严格的输出格式要求。详情见第3.1节（https://arxiv.org/html/2606.11204#S3.SS1）。
3. **提取**：提示和预处理后的文档提交给LLM API。基于文本的请求通过SAP AI Core的编排服务路由；多模态请求直接调用提供商端点。处理时间被记录用于延迟测量。
4. **输出处理与后处理**：LLM返回一个符合预定义模式的结构化JSON对象，以及包含输入/输出token计数和处理时间戳的元数据。解析响应以提取有效的JSON内容。后处理包括移除Markdown围栏、模式验证和Unicode标准化。清理后的输出和相关元数据作为唯一标识的文件存储，以便后续评估和成本计算。
5. **数据处理**：返回的JSON与人工验证的真实值进行逐字段比较。对于每个字段，计算一个二进制匹配指示符（真/假），并在章节级别汇总以计算准确性。结果按每个SDS文档存储，允许计算所有提取章节的每文档准确性。然后对所有十个SDS文档的结果进行汇总，以计算每个模型-提示-方法配置的最终准确性。token元数据用于根据提供商特定定价计算每文档成本。最后，一个归一化成本函数结合准确性（权重0.7）、处理时间（权重0.2）和成本（权重0.1），得出一个统一的性能分数，用于对所有21种配置进行系统比较。

提取模式涵盖了广泛的SDS字段，涉及多种信息类型，包括文本、数字、表格和图形元素。SDS章节引入了不同的结构模式，从简单的键值对（例如，产品标识符或信号词）到描述化学成分、暴露限值和监管分类的嵌套列表（图1（https://arxiv.org/html/2606.11204#S1.F1））。

许多字段在语义上是密集的或多部分的，例如表格数据在单个单元格中混合了定量值、单位和限定词。示例包括浓度范围、暴露阈值以及同时编码多个监管系统的运输信息表。这些表格结构需要对格式进行一致性标准化。

大型语言模型用于安全数据提取的基准测试

相似文章

评估大语言模型在社交媒体分析中的能力：多任务探索

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

用于模式约束临床信息抽取的检索增强型大语言模型

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

AI能猜出你知道什么吗？基于通信日志的人类领域知识估算中大语言模型的性能比较

提交意见反馈