FORTIS:代理技能中的过度特权基准测试
摘要
FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况,表明在十款前沿模型中过度特权是常态,并在真实用户交互场景下失效。
查看缓存全文
缓存时间: 2026/05/12 10:53
论文页面 - FORTIS: Benchmarking Over-Privilege in Agent Skills
来源:https://huggingface.co/papers/2605.09163 作者:
,
,
,
,
,
,
,
,
,
摘要
大语言模型智能体在选择和执行技能时经常超出必要权限,且在真实的用户交互条件下性能会出现下降。
大语言模型智能体(https://huggingface.co/papers?q=Large%20language%20model%20agents)越来越多地通过中间技能层(https://huggingface.co/papers?q=skill%20layer)进行运作,该层在用户意图与具体任务执行之间起中介作用。这一层通常被视为一种组织抽象,但我们认为它同时也是一个权限边界(https://huggingface.co/papers?q=privilege%20boundary),而当前模型经常会突破这一边界。我们提出了 FORTIS,这是一个用于评估智能体技能(https://huggingface.co/papers?q=agent%20skills)中过度权限(https://huggingface.co/papers?q=over-privilege)的基准测试,涵盖两个阶段:模型是否能从大量重叠的技能库中选择最小充分技能(https://huggingface.co/papers?q=minimally%20sufficient%20skill),以及模型在执行该技能时是否会超出技能允许的范围去调用更广泛的工具或操作。在对十个前沿模型和三个领域的测试中,我们发现过度权限(https://huggingface.co/papers?q=over-privilege)行为是常态而非例外。模型始终会调用比任务所需权限更高的技能和工具,在这两个阶段的失败率居高不下,即使是最强的现有模型也是如此。在真实用户交互的普通条件下,失败尤为严重:规范不完整、便利性表述以及接近技能边界。这些情况均无需对抗性构造即可触发。结果表明,技能层(https://huggingface.co/papers?q=skill%20layer)远未能约束智能体行为,其本身已成为当前系统中权限提升(https://huggingface.co/papers?q=privilege%20escalation)的主要来源。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09163)查看 PDF (https://arxiv.org/pdf/2605.09163)项目页面 (https://huggingface.co/datasets/ShawnLi02/FORTIS_Agent_Skill_Safety)GitHub1 (https://github.com/lili0415/FORTIS-Benchmark)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09163)
引用本论文的模型0
暂无模型关联本论文
在模型的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。
引用本论文的数据集0
暂无数据集关联本论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。
引用本论文的 Spaces0
暂无 Space 关联本论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.09163 即可在此页面显示关联。
包含本论文的合集0
暂无合集包含本论文
将本论文添加到合集 (https://huggingface.co/new-collection)即可在此页面显示关联。
相似文章
当较低权限即足够:探究LLM Agent中的过度权限工具选择
本文研究了LLM Agent中的过度权限工具选择问题,引入了ToolPrivBench来评估并缓解不必要的高权限工具使用。研究发现,安全对齐并不能确保最小权限选择,并提出了一种训练后防御方法,能够在不牺牲性能的情况下减少过度权限的使用。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
能力前沿:基准测试遗漏了82%的模型性能
本文提出了能力前沿(Capability Frontier),这是一个针对模型的帕累托前沿,用于纠正单模型和单次运行评估中的偏差,表明标准基准测试遗漏了高达82%的模型性能,并且集体LLM能力被严重低估。
SkillFlow:自主智能体终身技能发现与演化基准测试
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。
扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。