SkillHarm：通过自动化构建的生命周期感知技能攻击

Hugging Face Daily Papers 2026/06/01 00:00 论文

skill-based-attacks agent-security benchmark ai-safety poisoning-attacks agent-workflow vulnerability

摘要

SkillHarm 是一个用于评估技能使用生命周期中基于技能的攻击的基准，揭示了当前AI代理的高度脆弱性（攻击成功率高达86.3%），并引入了通过AutoSkillHarm实现的自动化攻击构建。

Agent技能在Agent工作流中占据特权地位，因为Agent被期望隐式地遵循并执行这些技能，这使得第三方技能成为易受攻击的攻击面。现有研究揭示了由基于技能的攻击引发的Agent不安全行为，但它们主要评估单个任务执行中的中毒技能，并通过临时风险列表列举危害。为弥补这些差距，我们引入了SkillHarm，这是一个涵盖技能使用生命周期的基于技能的攻击基准，并配有系统化的技能相关风险分类。SkillHarm评估两种攻击场景：固定负载投毒（FPP），其中固定的中毒技能包直接危害任何调用它的任务会话；以及自变异投毒（SMP），其中初始良性的执行静默地改变持久性技能内容，将危害延迟到后续重新使用时。它进一步根据危害所针对的Agent工作流组件定义了12种风险类型：数据管道、系统环境和Agent自主性。为了大规模实例化这些攻击，我们构建了AutoSkillHarm，这是一个由自然语言驱动编程Agent的自动化构建流水线。生成的基准包含跨71个技能的879个攻击样本。实验表明，当前的Agent仍然脆弱，在FPP中攻击成功率高达86.3%，在SMP中为69.3%。我们的分析进一步揭示了一个潜在风险：许多看似攻击失败的原因是Agent未能与中毒文件交互，而非真正抵抗，并且当前的防御措施仍然无法可靠地缓解这一威胁。

查看原文

查看缓存全文

缓存时间: 2026/06/10 17:46

论文页面 - SkillHarm：通过自动化构建的生命周期感知型技能攻击

来源：https://huggingface.co/papers/2606.02540
作者：

摘要

SkillHarm 是一个用于评估技能使用全生命周期中技能类攻击的基准，结果表明当前智能体存在显著脆弱性，攻击成功率最高可达 86.3%。

技能在 agent workflow (https://huggingface.co/papers?q=agent%20workflow) 中占据特权地位，因为智能体会默认遵循并执行这些技能，这使得第三方技能成为易受攻击的攻击面。已有研究揭示了由 skill-based attacks (https://huggingface.co/papers?q=skill-based%20attacks) 引发的智能体不安全行为，但它们主要是在单次任务执行中评估被投毒技能，并通过临时风险列表枚举危害。为弥补这些不足，我们引入了 SkillHarm，这是一个涵盖技能使用全生命周期的 skill-based attacks (https://huggingface.co/papers?q=skill-based%20attacks) 基准，并配有系统化的技能相关风险分类体系。SkillHarm 评估两种 attack scenarios (https://huggingface.co/papers?q=attack%20scenarios)：Fixed-Payload Poisoning (FPP)（固定载荷投毒），即一个固定的投毒技能包会直接危害任何调用它的任务会话；以及 Self-Mutating Poisoning (SMP)（自变异投毒），即最初良性的执行会静默地变异持久的技能内容，将危害延迟到后续复用。它还根据危害所针对的 agent workflow (https://huggingface.co/papers?q=agent%20workflow) 组件定义了 12 种风险类型：数据管道、系统环境和智能体自主性。为了大规模实例化这些攻击，我们构建了 AutoSkillHarm，一个由自然语言驱动编码智能体的自动化构建流水线。生成的基准包含 879 个 attack samples (https://huggingface.co/papers?q=attack%20samples)，涵盖 71 项技能。实验表明，当前智能体仍然脆弱，在 FPP 中 attack success rates (https://huggingface.co/papers?q=attack%20success%20rates) 高达 86.3%，在 SMP 中高达 69.3%。我们的进一步分析揭示了一个潜在风险：许多看似失败的攻击实际上是由于智能体未能与投毒文件进行交互，而非真正的抵抗；并且当前的防御措施仍然无法可靠地缓解这一威胁。

查看 arXiv 页面 (https://arxiv.org/abs/2606.02540)查看 PDF (https://arxiv.org/pdf/2606.02540)项目页面 (https://osu-nlp-group.github.io/SkillHarm/)GitHub4 (https://github.com/OSU-NLP-Group/SkillHarm)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02540)

引用本文的模型0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02540 以在此页面建立链接。

引用本文的数据集1

osunlp/SkillHarm 查看器 • 更新于 9 天前 • 879 • 3.72k • 1 (https://huggingface.co/datasets/osunlp/SkillHarm)

引用本文的空间0

尚无空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.02540 以在此页面建立链接。

包含本文的收藏集0

尚无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

SkillHarm：通过自动化构建的生命周期感知技能攻击

论文页面 - SkillHarm：通过自动化构建的生命周期感知型技能攻击

摘要

引用本文的模型0

引用本文的数据集1

osunlp/SkillHarm 查看器 • 更新于 9 天前 • 879 • 3.72k • 1 (https://huggingface.co/datasets/osunlp/SkillHarm)

引用本文的空间0

包含本文的收藏集0

相似文章

SkillHarness：为计算机使用代理驾驭安全技能

Skill Inspector

SkillMaster：迈向大语言模型智能体的自主技能掌握

并非所有技能都有帮助：衡量与修复智能体知识

SkillFlow：自主智能体终身技能发现与演化基准测试

提交意见反馈