FORTIS:代理技能中的过度特权基准测试

Hugging Face Daily Papers 论文

摘要

FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况,表明在十款前沿模型中过度特权是常态,并在真实用户交互场景下失效。

大型语言模型代理越来越多地通过一个中间技能层来运作,该层在用户意图与具体任务执行之间起中介作用。该层被广泛视为一种组织抽象,但我们认为它也是一个当前模型经常越过的特权边界。我们提出 FORTIS,一个评估代理技能中过度特权的基准,分为两个阶段:模型是否从一个大型重叠库中选择最小充分技能,以及执行该技能时是否未扩展至技能允许范围之外的更广泛工具或操作。在十款前沿模型和三个领域上,我们发现过度特权行为是常态而非例外。模型始终倾向于使用比任务所需更高特权的技能和工具,在两个阶段的失败率均居高不下,即使对目前最强的模型也是如此。在真实用户交互的普通条件下,失效尤为严重:不完整的规范、便利性框架以及靠近技能边界。这些均无需对抗性构造。结果表明,技能层远未约束代理行为,其本身反而是当前系统中特权升级的主要来源。
查看原文
查看缓存全文

缓存时间: 2026/05/12 10:53

论文页面 - FORTIS: Benchmarking Over-Privilege in Agent Skills

来源:https://huggingface.co/papers/2605.09163 作者:

,

,

,

,

,

,

,

,

,

摘要

大语言模型智能体在选择和执行技能时经常超出必要权限,且在真实的用户交互条件下性能会出现下降。

大语言模型智能体(https://huggingface.co/papers?q=Large%20language%20model%20agents)越来越多地通过中间技能层(https://huggingface.co/papers?q=skill%20layer)进行运作,该层在用户意图与具体任务执行之间起中介作用。这一层通常被视为一种组织抽象,但我们认为它同时也是一个权限边界(https://huggingface.co/papers?q=privilege%20boundary),而当前模型经常会突破这一边界。我们提出了 FORTIS,这是一个用于评估智能体技能(https://huggingface.co/papers?q=agent%20skills)中过度权限(https://huggingface.co/papers?q=over-privilege)的基准测试,涵盖两个阶段:模型是否能从大量重叠的技能库中选择最小充分技能(https://huggingface.co/papers?q=minimally%20sufficient%20skill),以及模型在执行该技能时是否会超出技能允许的范围去调用更广泛的工具或操作。在对十个前沿模型和三个领域的测试中,我们发现过度权限(https://huggingface.co/papers?q=over-privilege)行为是常态而非例外。模型始终会调用比任务所需权限更高的技能和工具,在这两个阶段的失败率居高不下,即使是最强的现有模型也是如此。在真实用户交互的普通条件下,失败尤为严重:规范不完整、便利性表述以及接近技能边界。这些情况均无需对抗性构造即可触发。结果表明,技能层(https://huggingface.co/papers?q=skill%20layer)远未能约束智能体行为,其本身已成为当前系统中权限提升(https://huggingface.co/papers?q=privilege%20escalation)的主要来源。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09163)查看 PDF (https://arxiv.org/pdf/2605.09163)项目页面 (https://huggingface.co/datasets/ShawnLi02/FORTIS_Agent_Skill_Safety)GitHub1 (https://github.com/lili0415/FORTIS-Benchmark)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09163)

引用本论文的模型0

暂无模型关联本论文

在模型的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。

引用本论文的数据集0

暂无数据集关联本论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。

引用本论文的 Spaces0

暂无 Space 关联本论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。

包含本论文的合集0

暂无合集包含本论文

将本论文添加到合集 (https://huggingface.co/new-collection)即可在此页面显示关联。

相似文章

当较低权限即足够:探究LLM Agent中的过度权限工具选择

Hugging Face Daily Papers

本文研究了LLM Agent中的过度权限工具选择问题,引入了ToolPrivBench来评估并缓解不必要的高权限工具使用。研究发现,安全对齐并不能确保最小权限选择,并提出了一种训练后防御方法,能够在不牺牲性能的情况下减少过度权限的使用。

能力前沿:基准测试遗漏了82%的模型性能

arXiv cs.AI

本文提出了能力前沿(Capability Frontier),这是一个针对模型的帕累托前沿,用于纠正单模型和单次运行评估中的偏差,表明标准基准测试遗漏了高达82%的模型性能,并且集体LLM能力被严重低估。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。