GRID:用于安全文本知识图谱构建的情报数据图形表示

arXiv cs.AI 论文

摘要

本文提出了GRID,一个端到端的框架,用于从网络威胁情报(CTI)文章中使用大型语言模型(LLM)构建安全知识图谱。引入了一种任务库奖励训练方法,无需昂贵的LLM作为裁判即可提升精确率和召回率。该方法在来自五个来源的249篇CTI文章的基准测试中取得了强劲的结果。

arXiv:2605.16714v1 公告类型:新发布 摘要:安全知识图谱可为安全智能体提供可计算的外部记忆,但如何从长篇网络威胁情报(CTI)中构建此类图谱仍然存在困难:LLM往往缺乏基于领域的安全知识,而端到端的文档到图谱训练又很难通过廉价、稳定的奖励进行监督。我们提出了GRID(情报数据的图形表示),一个面向安全文本知识图谱构建的端到端框架。GRID首先通过图提取和知识图谱条件文本修正,从CTI文章构建可追溯的文章-图谱对齐,从而建立安全领域监督。随后将文档到图谱的学习转化为一个脚本化的任务库,该任务库结合了四选一多项选择题与三元组级别的正则表达式匹配目标,相比用LLM裁判反复对完整图谱输出打分,能提供更稳定的任务特定奖励。利用这一监督管道,我们训练了两个基于Qwen3-4B-Instruct-2507的4B抽取器:一个主要任务库奖励模型和一个带有LLM裁判精确率/召回率奖励的辅助端到端奖励模型。在来自GRID、CASIE、CTINexus、MalKG和SecureNLP的249篇CTI文章上,采用本体引导GRID抽取管道的任务库奖励模型实现了84.62%的源平均精确率、64.91%的源平均召回率和68.53%的平均F1分数,在较低令牌使用和部署成本下达到最佳源平均召回率并接近最高平均F1分数。端到端奖励模型达到76.91%的精确率、53.85%的召回率和58.06%的平均F1分数。进一步分析表明,任务库奖励可以一次性离线构建,并在后续的后训练轮次中重复使用,优于在线端到端LLM裁判奖励以及更弱的替代方案(例如仅选项奖励和没有强化学习的端到端监督微调)。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:35

# GRID:安全文本知识图谱构建的情报数据图表示
来源:https://arxiv.org/html/2605.16714
黄良毅¹ 刘子辰¹ 邵飞² 马尚³ 张梦诗⁴ 陈子豪⁵ 叶艳芳³ 肖旭生¹
¹亚利桑那州立大学 ²凯斯西储大学 ³圣母大学 ⁴TensorBlock ⁵Facebook
[email protected]

###### 摘要

安全知识图谱可作为安全智能体的可计算、可追溯的外部记忆。我们的目标是赋予大语言模型安全领域知识,使其能从长篇安全文本中提取知识图谱。然而,现有的大语言模型普遍缺乏基于真实安全文本的领域知识,且端到端的文档到图谱训练难以通过廉价且稳定的奖励进行监督。我们提出了情报数据图表示(GRID),一个用于安全文本知识图谱构建的端到端框架。GRID首先通过图提取和知识图谱条件文本修订,以无监督方式构建可追踪的文章-图谱对齐,从而从安全相关的CTI文章中生成安全领域的监督信号。接着,它将文档到图谱的学习重新定义为一种脚本化任务库,该任务库结合了四选多选问题与三元组级别的正则表达式匹配目标,与在每个训练步骤中要求LLM裁判对整个图谱输出进行评分相比,能提供更廉价且更稳定的任务特定奖励。基于这一监督流水线,我们训练了两个基于Qwen3-4B-Instruct-2507的4B提取器:一个主任务库奖励模型和一个辅助端到端奖励模型,后者用于直接的文章到知识图谱生成,并采用LLM-as-judge的精确率/召回率奖励。在一个包含来自五个来源(GRID、CASIE、CTINexus、MalKG和SecureNLP)的249篇CTI文章的统一基准测试中,经过后训练的任务库奖励模型结合本体引导的GRID提取流水线,实现了84.62%的源平均精确率、64.91%的源平均召回率和68.53%的平均F1分数,取得了最佳的源平均召回率,并以更少的令牌使用量和更低的部署成本接近最佳平均F1分数。辅助的端到端奖励模型达到了76.91%的源平均精确率、53.85%的源平均召回率和58.06%的平均F1分数。进一步分析表明,任务库奖励可以一次性离线构建,并在后续的后训练中重复使用,其性能优于在线端到端LLM裁判奖励以及更弱的替代方案(如仅选择奖励和无强化学习的端到端SFT),并且文章重写和文章复杂度排序训练对于最佳性能都是必要的。

## 1 引言

近年来,网络攻击变得更加频繁、复杂且代价高昂(Gao et al., 2018; Hutchins et al., 2011; dep, 2021; Times, 2014)。2024年美国网络安全态势报告显示,自2022年以来,报告的勒索软件事件增加了22%,相关成本增加了74%(Office of the National Cyber Director, 2024)。然而,许多组织仍然对当前威胁缺乏良好理解。最近一项研究表明,79%的安全决策者经常忽略威胁行为者信息,只有35%的人认为他们的组织了解对手的战术、技术和程序,68%的人认为其威胁情报能力需要重大改进(Mandiant, 2024)。

因此,网络威胁情报对网络防御至关重要(McMillan, 2013; Wagner et al., 2019)。常见的结构化CTI来源,如入侵指标、通用漏洞与暴露和网络杀伤链,虽然有用,但常常遗漏重要的攻击背景(Obrst et al., 2012; Liao et al., 2016; Catakoglu et al., 2016; Senki, 2016; MITRE, 2020; cyb, 2021; Corporation, 2022)。相比之下,非结构化的CTI文章,如技术博客和威胁报告,通常更详细地描述了攻击行为、攻击者目标、被利用的漏洞以及恶意软件演变(Liao et al., 2016; Dong et al., 2019)。这推动了将CTI知识组织成结构化资源(如MITRE ATT&CK和NVD)以及从CTI文章中自动提取威胁知识的努力(Corporation, 2022; of Standards & Technology, 2021; Li et al., 2022; Satvat et al., 2021; Gao et al., 2022; Wang et al., 2023; OpenAI, 2023; Huang & Xiao, 2024)。

知识图谱对此目的很有用,因为它们在一个结构中同时表示安全实体及其关系。先前的工作表明,基于图结构的威胁知识有助于通过将已知威胁行为与系统审计事件和溯源图进行匹配来进行取证分析和攻击重建(Milajerdi et al., 2019; King & Chen, 2003; dep, 2021; Xu et al., 2022)。更一般地,图结构知识也有助于LLM和智能体在连接证据上进行推理。Think-on-Graph在9个推理基准中的6个上报告了最先进的结果,G-Retriever将有效节点基础从31%提高到77%,完全有效图基础从8%提高到62%,最近的智能体图记忆系统报告相对于记忆基线有26%的相对改进,以及在长程任务上准确率提高高达18.5%(Sun et al., 2023a; He et al., 2024; Chhikara et al., 2025; Rasmussen et al.)。图1展示了一个Log4Shell示例,包括来自CTI文章的知识图谱和攻击摘要。

参见图注
图1:Log4Shell (CVE-2021-44228) CTI文章:知识图谱(左)和攻击摘要(右)

在本文中,我们提出了情报数据图表示(GRID),一个低成本的用于安全文本知识图谱构建的框架。与其将安全知识图谱提取视为一个独立的提示问题,GRID提供了一个完整的流水线,用于开发和评估基于LLM的安全知识图谱提取系统。该流水线涵盖:从CTI文章中无监督构建监督信号、用于端到端文档到图谱学习的更廉价任务库奖励、固定的两提示推理流水线,以及针对人工标注CTI数据的可信自动评估。

挑战。我们接下来总结现有方法面临的主要挑战。

- • **缺乏安全领域知识的整合**:大多数现有LLM是为通用目的而设计的,而非专门用于从安全文本中提取知识图谱,尤其是在小模型规模上,这使从业者依赖于昂贵的商业API。
- • **缺乏高质量CTI文章-图谱对齐数据**:训练用于CTI知识图谱提取的LLM需要与真实CTI文本和图谱输出紧密对齐的监督信号,但目前没有公开的高质量数据集提供此类文章-图谱对用于端到端训练。
- • **开放端知识图谱提取的昂贵奖励信号**:端到端知识图谱提取是一项开放式生成任务,使得强化学习的奖励设计困难且昂贵。即使使用LLM作为裁判,在训练时要求其对完整提取图谱进行评分仍然会产生高成本。
- • **关系提取中的浅层捷径学习**:LLM在预测关系时倾向于依赖表面词汇重叠、局部共现或其他表面启发式,而不是深入理解CTI叙述中的实体语义、别名、结构层次和关系约束。

贡献。

- • **文章-图谱对齐数据的自动标注**:GRID引入了一种用于CTI知识图谱提取的自动数据标注算法。它首先生成一个可追踪的知识图谱,保留源文本中的逐字证据锚点,然后执行知识图谱条件文本修订,以移除未被图谱捕获的CTI信息,同时保留非CTI上下文。这在不需大规模人工标注的情况下产生了高质量的文章-图谱对齐。
- • **用于RL训练的低成本任务库重构**:GRID将开放式知识图谱提取重新定义为脚本化的监督任务,结合了四选多选问题与三元组级别的正则表达式目标。这用更廉价的任务级检查替代了完整图谱评分。
- • **本体引导的CTI知识图谱提取**:GRID设计了一个面向CTI的本体,明确建模实体类型、关系类别、别名和层次结构,使得提取依赖于实体语义和约束,而不仅仅是浅层文本线索;结合后训练模型,这降低了部署成本。
- • **开箱即用的基准测试和可信自动评估**:为了解决缺乏开箱即用CTI知识图谱提取基准测试的问题,GRID还构建了一个以真实CTI文章为中心的测试基准。该基准结合了人工标注的真实世界CTI数据和多个现有安全文本数据集,并与基于文本可验证精确率和召回率的可信自动评估器配对。

评估。我们在一个包含五个来源的249篇CTI文章的统一基准上评估GRID,其中包括49篇GRID文章(平均1,102个令牌和15.35条真实边)、50篇CASIE文章(平均537个令牌和7.94条真实边)、50篇CTINexus文章(平均191个令牌和11.80条边)、50篇MalKG文章(平均6,632个令牌和48.90条边)和50篇SecureNLP文章(平均11,000个令牌和68.66条边),在剔除了真实知识图谱边数少于五条的文章后。对于所有研究问题,我们报告使用校准后的LLM裁判的有效性结果,该裁判与三位人工评审者的标注一致性达到86.0%。使用Qwen3-4B-Instruct-2507,我们训练了两个4B提取器:一个主要任务库奖励模型和一个使用在线端到端LLM裁判奖励训练的对比模型。在此基准上,经过后训练的任务库奖励模型结合本体引导的GRID流水线实现了84.62%的源平均精确率、64.91%的源平均召回率和68.53%的平均F1分数,取得了最佳的源平均召回率,并且比CTINexus使用更少的令牌量。在线端到端LLM裁判奖励模型达到了76.91%的精确率、53.85%的召回率和58.06%的平均F1分数。RQ2消融实验进一步验证了任务库奖励是一种有效的奖励设计,优于在线端到端奖励、仅选择奖励、无RL的端到端SFT以及基础模型。在相同训练预算下,GRID的完整设置比没有文章重写或文章复杂度排序的变体实现了更高的训练奖励和反映精确率与召回率的更高测试集分数。代码和数据可在 https://github.com/anonymousauthorname/ProjectGRIDgri (2026)获取。

## 2 方法

图2总结了GRID的整体流水线,本节的其余部分将依次解释每个步骤。

参见图注
图2:GRID概览

### 2.1 文章-图谱对齐数据的自动标注

GRID通过一个两阶段标注-修订循环将每篇原始CTI文章映射到一个对齐对\(a', G'\)。它首先在严格的文本可验证约束下提取一个可追踪的知识图谱,然后根据该图谱重写文章,以便移除不支持的安全内容,同时保留基于图谱的证据和非安全上下文。结果是一篇修订后的文章,其安全相关内容与提取的图谱显式对齐;算法1给出了该过程。

**输入:** 原始CTI文章 \(a\),可追踪提取提示 \(P_{trace}\),修订提示 \(P_{rev}\)
**输出:** 文章-图谱对齐 \((a', G')\),包含修订后的文章 \(a'\) 和基于文本的知识图谱 \(G'\)

1: \(G \leftarrow \text{LLMExtract}(a, P_{trace})\)
2: 将 \(G\) 解析为实体列表 \(E\) 和关系列表 \(R\)
3: **对于** \(R\) 中的每个关系 \(r\) **执行**
4: 保留 \(r\) 中句子级别的 subject/object 提及 \((r.sub, r.obj)\)
5: 保留逐字证据锚点 \((r.raw\_sub\_name, r.raw\_obj\_name, r.raw\_text\_start, r.raw\_text\_end)\)
6: **结束对于**
7: 标记 \(a\) 中所有受 \(R\) 保护的锚点跨度
8: \(a' \leftarrow \text{LLMRevise}(a, G, P_{rev})\),删除不支持的security提及,同时保留受保护的锚点和非安全上下文
9: \(G' \leftarrow (E, R)\)
10: **返回** \((a', G')\)

**算法1** 文章-图谱对齐数据的自动标注

### 2.2 任务库构建

GRID不直接奖励完整的文档到图谱生成,而是将每个文章-图谱对齐 \((a', G')\) 转换为两个易于检查的RL任务族。第一个任务族创建四选多选问题,其中正确答案可以包含0-4个正确选项的任意子集。第二个任务族为每个真实KG边创建一个三元组级别的正则表达式目标,使得图监督可以简化为逐边匹配,而不是全图判断。

在选择题方面,干扰项是对比性否定选项,这些选项可能在文章中看起来相关但实际上无效,或者基于现实世界的CTI经验看似合理,但文章本身并不支持它们。在正则表达式方面,匹配在实体和关系级别进行了归一化,但仍然保持边对齐。表1和表2总结了这两个规则族。

表1:用于精确率和幻觉检查的选择题模式
| 族 | 模式 | 定义 |
|---|---|---|
| 精确率 | 支持的三元组 | 在四个选项中,0-4个得到文本支持;其余为近...

相似文章

通过扩散模型生成知识图谱推理的图状规则

arXiv cs.AI

本文介绍了GRiD,一个利用扩散模型和强化学习生成图状规则(如循环、分支)以进行知识图谱推理的框架,解决了现有链式规则挖掘方法的局限性。在六个基准数据集上的实验表明,该方法在知识图谱补全任务中取得了有竞争力的性能。