FORTIS：代理技能中的过度特权基准测试

Hugging Face Daily Papers 2026/05/09 00:00 论文

over-privilege agent-safety benchmark skill-layer privilege-escalation llm-agents

摘要

FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况，表明在十款前沿模型中过度特权是常态，并在真实用户交互场景下失效。

大型语言模型代理越来越多地通过一个中间技能层来运作，该层在用户意图与具体任务执行之间起中介作用。该层被广泛视为一种组织抽象，但我们认为它也是一个当前模型经常越过的特权边界。我们提出 FORTIS，一个评估代理技能中过度特权的基准，分为两个阶段：模型是否从一个大型重叠库中选择最小充分技能，以及执行该技能时是否未扩展至技能允许范围之外的更广泛工具或操作。在十款前沿模型和三个领域上，我们发现过度特权行为是常态而非例外。模型始终倾向于使用比任务所需更高特权的技能和工具，在两个阶段的失败率均居高不下，即使对目前最强的模型也是如此。在真实用户交互的普通条件下，失效尤为严重：不完整的规范、便利性框架以及靠近技能边界。这些均无需对抗性构造。结果表明，技能层远未约束代理行为，其本身反而是当前系统中特权升级的主要来源。

查看原文

查看缓存全文

缓存时间: 2026/05/12 10:53

论文页面 - FORTIS: Benchmarking Over-Privilege in Agent Skills

来源：https://huggingface.co/papers/2605.09163 作者：

摘要

大语言模型智能体在选择和执行技能时经常超出必要权限，且在真实的用户交互条件下性能会出现下降。

大语言模型智能体(https://huggingface.co/papers?q=Large%20language%20model%20agents)越来越多地通过中间技能层(https://huggingface.co/papers?q=skill%20layer)进行运作，该层在用户意图与具体任务执行之间起中介作用。这一层通常被视为一种组织抽象，但我们认为它同时也是一个权限边界(https://huggingface.co/papers?q=privilege%20boundary)，而当前模型经常会突破这一边界。我们提出了 FORTIS，这是一个用于评估智能体技能(https://huggingface.co/papers?q=agent%20skills)中过度权限(https://huggingface.co/papers?q=over-privilege)的基准测试，涵盖两个阶段：模型是否能从大量重叠的技能库中选择最小充分技能(https://huggingface.co/papers?q=minimally%20sufficient%20skill)，以及模型在执行该技能时是否会超出技能允许的范围去调用更广泛的工具或操作。在对十个前沿模型和三个领域的测试中，我们发现过度权限(https://huggingface.co/papers?q=over-privilege)行为是常态而非例外。模型始终会调用比任务所需权限更高的技能和工具，在这两个阶段的失败率居高不下，即使是最强的现有模型也是如此。在真实用户交互的普通条件下，失败尤为严重：规范不完整、便利性表述以及接近技能边界。这些情况均无需对抗性构造即可触发。结果表明，技能层(https://huggingface.co/papers?q=skill%20layer)远未能约束智能体行为，其本身已成为当前系统中权限提升(https://huggingface.co/papers?q=privilege%20escalation)的主要来源。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09163)查看 PDF (https://arxiv.org/pdf/2605.09163)项目页面 (https://huggingface.co/datasets/ShawnLi02/FORTIS_Agent_Skill_Safety)GitHub1 (https://github.com/lili0415/FORTIS-Benchmark)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09163)

引用本论文的模型0

暂无模型关联本论文

在模型的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。

引用本论文的数据集0

暂无数据集关联本论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。

引用本论文的 Spaces0

暂无 Space 关联本论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。

包含本论文的合集0

暂无合集包含本论文

将本论文添加到合集 (https://huggingface.co/new-collection)即可在此页面显示关联。

FORTIS：代理技能中的过度特权基准测试

论文页面 - FORTIS: Benchmarking Over-Privilege in Agent Skills

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的合集0

相似文章

当较低权限即足够：探究LLM Agent中的过度权限工具选择

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

能力前沿：基准测试遗漏了82%的模型性能

SkillFlow：自主智能体终身技能发现与演化基准测试

扮演真正的研究者：一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

提交意见反馈