对稀疏且爆发式漏洞目击进行建模:数据受限下的预测

Hugging Face Daily Papers 论文

摘要

学术论文比较了 SARIMAX 与泊松回归在预测稀疏、爆发式漏洞目击时间序列中的表现,发现基于计数的模型更稳定。

理解并预判与漏洞相关的活动是网络威胁情报的一大难题。本文探讨能否对漏洞目击(如 PoC 发布、检测模板或在线讨论)进行时间序列预测。在我们先前基于文本描述预测漏洞严重程度的 Transformer 模型 VLAI 基础上,进一步检验其输出的严重分数能否作为外生变量提升预测效果。我们评估了多种短期预测方法:首先测试带/不带 log(x+1) 变换及 VLAI 严重度输入的 SARIMAX 模型。尽管这些调整带来有限改进,SARIMAX 仍难以应对稀疏、短且爆发式的漏洞数据,常产生过宽的置信区间,甚至负值。为更好刻画目击的离散与事件驱动特性,继而采用泊松回归等计数模型。初步结果显示,当周聚合目击数据时,这些模型输出更稳定、可解释的预测。我们还讨论了更简单的运营替代方案,如对短预测窗口使用指数衰减函数,无需长历史序列即可估计未来活动。总体而言,本研究揭示了预测稀有且爆发式网络事件的潜力与局限,并为将预测分析集成到漏洞情报流程提供了实用指南。
查看原文
查看缓存全文

缓存时间: 2026/04/21 11:27

论文页面 - 稀疏且突发漏洞目击事件建模:数据受限下的预测

来源:https://huggingface.co/papers/2604.16038
发布时间:4 月 17 日

·

提交者:https://huggingface.co/cedricbonhomme

Cédric (https://huggingface.co/cedricbonhomme) 于 4 月 21 日

摘要

使用时间序列模型预测与漏洞相关的活动时,稀疏、突发的数据带来挑战,而基于计数的方法(如泊松回归)能提供更稳定的预测。

在网络威胁情报中,理解并预判漏洞相关活动是一大难题。本文研究能否对“漏洞目击事件”(如 PoC 公开、检测模板或线上讨论)进行时间维度的预测。在我们前期 VLAI(一种基于 Transformer、通过文本描述预测漏洞严重性的模型)的基础上,探讨能否将严重性得分作为外生变量,提升时间序列预测效果。我们评估了多种短期预测每漏洞目击数的方法:

  1. 测试带/不带 log(x+1) 变换、以及是否引入 VLAI 严重性输入的 SARIMAX 模型。尽管这些调整带来有限提升,SARIMAX 仍不适用于稀疏、短暂且突发的漏洞数据;实践中,预测常产生过宽的置信区间,甚至出现不合理的负值。
  2. 为更好捕捉目击事件的离散、事件驱动特性,转向基于计数的方法,如泊松回归。初步结果表明,这类模型在按周聚合目击数后,能给出更稳定、可解释的预测。
  3. 还讨论了更简单的运营替代方案,如指数衰减函数,可在短预测窗口内无需长历史序列即可估计未来活动。

总体而言,本研究揭示了预测稀有且突发网络事件的潜力与局限,并为将预测分析集成到漏洞情报流程提供了实用指导。

查看 arXiv 页面 (https://arxiv.org/abs/2604.16038)
查看 PDF (https://arxiv.org/pdf/2604.16038)
项目主页 (https://github.com/vulnerability-lookup/TARDISsight)
GitHub2 (https://github.com/vulnerability-lookup/TARDISsight)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16038)

在智能体中获取该论文:

hf papers read 2604\.16038

尚未安装最新 CLI?
curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16038 即可在此显示。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16038 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.16038 即可在此显示。

包含该论文的收藏 0

暂无收藏包含该论文

将该论文添加到收藏 (https://huggingface.co/new-collection) 即可在此显示。

相似文章

平稳性感知的检索增强时间序列预测

arXiv cs.LG

SARAF是一种平稳性感知的检索增强预测框架,它自适应地平衡时间序列预测中检索的相关性与多样性,并基于数据集级别的平稳性调节多样化强度,以处理非平稳状态转移。该工作已被KDD 2026接收,在8个真实世界数据集上展现出了优于强基线的竞争性能。

TS-Fault:针对结构性故障的时间序列预测器基准测试

arXiv cs.LG

本文介绍了TS-Fault,这是一个用于评估时间序列预测模型在结构化故障场景(如依赖关系断裂和机制变化)下的基准测试。研究发现,干净数据上的准确性通常与鲁棒性呈负相关,且基础模型特别脆弱。

嵌套时空时间序列预测

arXiv cs.LG

本文提出一种嵌套时空预测框架,利用谱聚类构建语义一致的宏观区域,为细粒度的微观预测提供自上而下的指导。在高维数据集上的实验表明,该方法始终优于最先进的基线模型。