当较低权限即足够:探究LLM Agent中的过度权限工具选择

Hugging Face Daily Papers 论文

摘要

本文研究了LLM Agent中的过度权限工具选择问题,引入了ToolPrivBench来评估并缓解不必要的高权限工具使用。研究发现,安全对齐并不能确保最小权限选择,并提出了一种训练后防御方法,能够在不牺牲性能的情况下减少过度权限的使用。

随着LLM Agent越来越自主地选择工具,它们在不同权限工具之间的选择变得与安全相关。然而,先前的工具选择研究主要关注与安全无关的元数据偏好,忽略了权限敏感的选择。为了填补这一空白,我们研究了过度权限工具选择问题,即Agent在有足够低权限替代方案的情况下,仍然选择或升级到更高权限的工具。我们引入了ToolPrivBench来评估Agent是否在有足够低权限替代方案时仍选择高权限工具,同时测量初始选择和瞬态工具故障后的升级行为。在八个领域和五种常见风险模式中,我们发现过度权限工具选择在主流LLM Agent中普遍存在,并且瞬态故障会进一步加剧这一现象。我们进一步发现,通用安全对齐无法可靠地迁移到最小权限工具选择上,而提示级别的控制仅能在瞬态故障下提供有限的缓解。因此,我们提出了一种权限感知的训练后防御方法,教导Agent优先选择足够的低权限工具,仅在必要时升级。我们的缓解实验表明,这种防御方法显著减少了不必要的高权限工具使用,同时保留了通用能力。
查看原文
查看缓存全文

缓存时间: 2026/06/25 09:11

论文页面 - 当较低权限足以胜任:探究LLM代理中的过度权限工具选择

来源: https://huggingface.co/papers/2606.20023

摘要

LLM代理常常不必要地选择高权限工具,尽管安全对齐无法确保最小权限选择,但后训练防御可以在不牺牲性能的情况下减少过度权限使用。

随着LLM代理越来越多地自主选择工具,它们在具有不同权限的工具之间做出选择变得与安全相关。然而,之前的工具选择研究主要关注与安全无关的元数据偏好,对权限敏感的选择(https://huggingface.co/papers?q=privilege-sensitive%20choices)探究不足。为填补这一空白,我们研究过度权限工具选择(https://huggingface.co/papers?q=over-privileged%20tool%20selection),即代理在存在足够低权限替代方案时,仍然选择或升级到高权限工具。我们引入ToolPrivBench(https://huggingface.co/papers?q=ToolPrivBench)来评估代理是否会在存在足够低权限替代方案时选择高权限工具,同时测量初始选择和在瞬态工具故障后的升级行为。在八个领域和五种重复风险模式中,我们发现过度权限工具选择(https://huggingface.co/papers?q=over-privileged%20tool%20selection)在主流LLM代理中普遍存在,并且瞬态故障进一步加剧了该现象。我们还发现,通用安全对齐无法可靠地迁移到最小权限工具选择(https://huggingface.co/papers?q=least-privilege%20tool%20choice),而提示级控制在瞬态故障下提供的缓解作用有限。因此,我们引入一种权限感知的后训练防御(https://huggingface.co/papers?q=post-training%20defense),教导代理优先选择足够低权限的工具,仅在必要时才升级。我们的缓解实验表明,该防御大幅减少不必要的高权限工具使用,同时保持通用能力。

查看arXiv页面(https://arxiv.org/abs/2606.20023)查看PDF(https://arxiv.org/pdf/2606.20023)GitHub3(https://github.com/AISafetyHub/agent-tool-selection-bias)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20023)

在你的代理中获取这篇论文:

hf papers read 2606.20023

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.20023以从本页链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.20023以从本页链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.20023以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从本页链接。

相似文章

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

FORTIS:代理技能中的过度特权基准测试

Hugging Face Daily Papers

FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况,表明在十款前沿模型中过度特权是常态,并在真实用户交互场景下失效。