SkillHarm:通过自动化构建的生命周期感知技能攻击
摘要
SkillHarm 是一个用于评估技能使用生命周期中基于技能的攻击的基准,揭示了当前AI代理的高度脆弱性(攻击成功率高达86.3%),并引入了通过AutoSkillHarm实现的自动化攻击构建。
查看缓存全文
缓存时间: 2026/06/10 17:46
论文页面 - SkillHarm:通过自动化构建的生命周期感知型技能攻击
来源:https://huggingface.co/papers/2606.02540
作者:
,
,
,
,
,
,
,
,
,
摘要
SkillHarm 是一个用于评估技能使用全生命周期中技能类攻击的基准,结果表明当前智能体存在显著脆弱性,攻击成功率最高可达 86.3%。
技能在 agent workflow (https://huggingface.co/papers?q=agent%20workflow) 中占据特权地位,因为智能体会默认遵循并执行这些技能,这使得第三方技能成为易受攻击的攻击面。已有研究揭示了由 skill-based attacks (https://huggingface.co/papers?q=skill-based%20attacks) 引发的智能体不安全行为,但它们主要是在单次任务执行中评估被投毒技能,并通过临时风险列表枚举危害。为弥补这些不足,我们引入了 SkillHarm,这是一个涵盖技能使用全生命周期的 skill-based attacks (https://huggingface.co/papers?q=skill-based%20attacks) 基准,并配有系统化的技能相关风险分类体系。SkillHarm 评估两种 attack scenarios (https://huggingface.co/papers?q=attack%20scenarios):Fixed-Payload Poisoning (FPP)(固定载荷投毒),即一个固定的投毒技能包会直接危害任何调用它的任务会话;以及 Self-Mutating Poisoning (SMP)(自变异投毒),即最初良性的执行会静默地变异持久的技能内容,将危害延迟到后续复用。它还根据危害所针对的 agent workflow (https://huggingface.co/papers?q=agent%20workflow) 组件定义了 12 种风险类型:数据管道、系统环境和智能体自主性。为了大规模实例化这些攻击,我们构建了 AutoSkillHarm,一个由自然语言驱动编码智能体的自动化构建流水线。生成的基准包含 879 个 attack samples (https://huggingface.co/papers?q=attack%20samples),涵盖 71 项技能。实验表明,当前智能体仍然脆弱,在 FPP 中 attack success rates (https://huggingface.co/papers?q=attack%20success%20rates) 高达 86.3%,在 SMP 中高达 69.3%。我们的进一步分析揭示了一个潜在风险:许多看似失败的攻击实际上是由于智能体未能与投毒文件进行交互,而非真正的抵抗;并且当前的防御措施仍然无法可靠地缓解这一威胁。
查看 arXiv 页面 (https://arxiv.org/abs/2606.02540)查看 PDF (https://arxiv.org/pdf/2606.02540)项目页面 (https://osu-nlp-group.github.io/SkillHarm/)GitHub4 (https://github.com/OSU-NLP-Group/SkillHarm)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02540)
引用本文的模型0
尚无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.02540 以在此页面建立链接。
引用本文的数据集1
osunlp/SkillHarm 查看器 • 更新于 9 天前 • 879 • 3.72k • 1 (https://huggingface.co/datasets/osunlp/SkillHarm)
引用本文的空间0
尚无空间链接此论文
请在空间 README.md 中引用 arxiv.org/abs/2606.02540 以在此页面建立链接。
包含本文的收藏集0
尚无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
SkillHarness:为计算机使用代理驾驭安全技能
SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。
Skill Inspector
Skill Inspector 是一款开发者工具,可审计 AI 代理技能,帮助防范恶意软件风险。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
并非所有技能都有帮助:衡量与修复智能体知识
本文指出,在LLM智能体中简单积累技能可能导致性能倒退,因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架,该框架衡量每个技能的因果贡献,并对每个任务进行掩码处理,在不更新权重的情况下,在AppWorld和τ-bench上取得了最先进的结果。
SkillFlow:自主智能体终身技能发现与演化基准测试
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。