SkillHarm:通过自动化构建的生命周期感知技能攻击

Hugging Face Daily Papers 论文

摘要

SkillHarm 是一个用于评估技能使用生命周期中基于技能的攻击的基准,揭示了当前AI代理的高度脆弱性(攻击成功率高达86.3%),并引入了通过AutoSkillHarm实现的自动化攻击构建。

Agent技能在Agent工作流中占据特权地位,因为Agent被期望隐式地遵循并执行这些技能,这使得第三方技能成为易受攻击的攻击面。现有研究揭示了由基于技能的攻击引发的Agent不安全行为,但它们主要评估单个任务执行中的中毒技能,并通过临时风险列表列举危害。为弥补这些差距,我们引入了SkillHarm,这是一个涵盖技能使用生命周期的基于技能的攻击基准,并配有系统化的技能相关风险分类。SkillHarm评估两种攻击场景:固定负载投毒(FPP),其中固定的中毒技能包直接危害任何调用它的任务会话;以及自变异投毒(SMP),其中初始良性的执行静默地改变持久性技能内容,将危害延迟到后续重新使用时。它进一步根据危害所针对的Agent工作流组件定义了12种风险类型:数据管道、系统环境和Agent自主性。为了大规模实例化这些攻击,我们构建了AutoSkillHarm,这是一个由自然语言驱动编程Agent的自动化构建流水线。生成的基准包含跨71个技能的879个攻击样本。实验表明,当前的Agent仍然脆弱,在FPP中攻击成功率高达86.3%,在SMP中为69.3%。我们的分析进一步揭示了一个潜在风险:许多看似攻击失败的原因是Agent未能与中毒文件交互,而非真正抵抗,并且当前的防御措施仍然无法可靠地缓解这一威胁。
查看原文
查看缓存全文

缓存时间: 2026/06/10 17:46

论文页面 - SkillHarm:通过自动化构建的生命周期感知型技能攻击

来源:https://huggingface.co/papers/2606.02540
作者:

,

,

,

,

,

,

,

,

,

摘要

SkillHarm 是一个用于评估技能使用全生命周期中技能类攻击的基准,结果表明当前智能体存在显著脆弱性,攻击成功率最高可达 86.3%。

技能在 agent workflow (https://huggingface.co/papers?q=agent%20workflow) 中占据特权地位,因为智能体会默认遵循并执行这些技能,这使得第三方技能成为易受攻击的攻击面。已有研究揭示了由 skill-based attacks (https://huggingface.co/papers?q=skill-based%20attacks) 引发的智能体不安全行为,但它们主要是在单次任务执行中评估被投毒技能,并通过临时风险列表枚举危害。为弥补这些不足,我们引入了 SkillHarm,这是一个涵盖技能使用全生命周期的 skill-based attacks (https://huggingface.co/papers?q=skill-based%20attacks) 基准,并配有系统化的技能相关风险分类体系。SkillHarm 评估两种 attack scenarios (https://huggingface.co/papers?q=attack%20scenarios):Fixed-Payload Poisoning (FPP)(固定载荷投毒),即一个固定的投毒技能包会直接危害任何调用它的任务会话;以及 Self-Mutating Poisoning (SMP)(自变异投毒),即最初良性的执行会静默地变异持久的技能内容,将危害延迟到后续复用。它还根据危害所针对的 agent workflow (https://huggingface.co/papers?q=agent%20workflow) 组件定义了 12 种风险类型:数据管道、系统环境和智能体自主性。为了大规模实例化这些攻击,我们构建了 AutoSkillHarm,一个由自然语言驱动编码智能体的自动化构建流水线。生成的基准包含 879 个 attack samples (https://huggingface.co/papers?q=attack%20samples),涵盖 71 项技能。实验表明,当前智能体仍然脆弱,在 FPP 中 attack success rates (https://huggingface.co/papers?q=attack%20success%20rates) 高达 86.3%,在 SMP 中高达 69.3%。我们的进一步分析揭示了一个潜在风险:许多看似失败的攻击实际上是由于智能体未能与投毒文件进行交互,而非真正的抵抗;并且当前的防御措施仍然无法可靠地缓解这一威胁。

查看 arXiv 页面 (https://arxiv.org/abs/2606.02540)查看 PDF (https://arxiv.org/pdf/2606.02540)项目页面 (https://osu-nlp-group.github.io/SkillHarm/)GitHub4 (https://github.com/OSU-NLP-Group/SkillHarm)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02540)

引用本文的模型0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02540 以在此页面建立链接。

引用本文的数据集1

osunlp/SkillHarm 查看器 • 更新于 9 天前 • 879 • 3.72k • 1 (https://huggingface.co/datasets/osunlp/SkillHarm)

引用本文的空间0

尚无空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.02540 以在此页面建立链接。

包含本文的收藏集0

尚无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

SkillHarness:为计算机使用代理驾驭安全技能

Hugging Face Daily Papers

SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。

Skill Inspector

Product Hunt

Skill Inspector 是一款开发者工具,可审计 AI 代理技能,帮助防范恶意软件风险。

并非所有技能都有帮助:衡量与修复智能体知识

arXiv cs.CL

本文指出,在LLM智能体中简单积累技能可能导致性能倒退,因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架,该框架衡量每个技能的因果贡献,并对每个任务进行掩码处理,在不更新权重的情况下,在AppWorld和τ-bench上取得了最先进的结果。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。