当较低权限即足够:探究LLM Agent中的过度权限工具选择
摘要
本文研究了LLM Agent中的过度权限工具选择问题,引入了ToolPrivBench来评估并缓解不必要的高权限工具使用。研究发现,安全对齐并不能确保最小权限选择,并提出了一种训练后防御方法,能够在不牺牲性能的情况下减少过度权限的使用。
查看缓存全文
缓存时间: 2026/06/25 09:11
论文页面 - 当较低权限足以胜任:探究LLM代理中的过度权限工具选择
来源: https://huggingface.co/papers/2606.20023
摘要
LLM代理常常不必要地选择高权限工具,尽管安全对齐无法确保最小权限选择,但后训练防御可以在不牺牲性能的情况下减少过度权限使用。
随着LLM代理越来越多地自主选择工具,它们在具有不同权限的工具之间做出选择变得与安全相关。然而,之前的工具选择研究主要关注与安全无关的元数据偏好,对权限敏感的选择(https://huggingface.co/papers?q=privilege-sensitive%20choices)探究不足。为填补这一空白,我们研究过度权限工具选择(https://huggingface.co/papers?q=over-privileged%20tool%20selection),即代理在存在足够低权限替代方案时,仍然选择或升级到高权限工具。我们引入ToolPrivBench(https://huggingface.co/papers?q=ToolPrivBench)来评估代理是否会在存在足够低权限替代方案时选择高权限工具,同时测量初始选择和在瞬态工具故障后的升级行为。在八个领域和五种重复风险模式中,我们发现过度权限工具选择(https://huggingface.co/papers?q=over-privileged%20tool%20selection)在主流LLM代理中普遍存在,并且瞬态故障进一步加剧了该现象。我们还发现,通用安全对齐无法可靠地迁移到最小权限工具选择(https://huggingface.co/papers?q=least-privilege%20tool%20choice),而提示级控制在瞬态故障下提供的缓解作用有限。因此,我们引入一种权限感知的后训练防御(https://huggingface.co/papers?q=post-training%20defense),教导代理优先选择足够低权限的工具,仅在必要时才升级。我们的缓解实验表明,该防御大幅减少不必要的高权限工具使用,同时保持通用能力。
查看arXiv页面(https://arxiv.org/abs/2606.20023)查看PDF(https://arxiv.org/pdf/2606.20023)GitHub3(https://github.com/AISafetyHub/agent-tool-selection-bias)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20023)
在你的代理中获取这篇论文:
hf papers read 2606.20023
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.20023以从本页链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.20023以从本页链接。
引用此论文的Space0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.20023以从本页链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从本页链接。
相似文章
LLM代理已经知道何时调用工具——甚至无需推理
本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。
FORTIS:代理技能中的过度特权基准测试
FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况,表明在十款前沿模型中过度特权是常态,并在真实用户交互场景下失效。
能力最小化作为一种安全原语:面向最小权限LLM代理的风险感知因果门控
本文提出风险感知因果门控(RACG),这是一种无需训练的机制,将最小权限原则应用于LLM代理的工具暴露,仅在授权和因果必要时暴露高风险工具,从而减少提示注入的攻击面。
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
ToolMenuBench:对可靠高效LLM代理的工具菜单过滤策略进行基准测试
ToolMenuBench是一个用于评估多步骤LLM代理中工具菜单过滤策略的基准测试。它表明,与未过滤的暴露相比,因果最小工具过滤显著提高了任务成功率并减少了Token使用量。