当较低权限即足够：探究LLM Agent中的过度权限工具选择

Hugging Face Daily Papers 2026/06/18 00:00 论文

llm-agents tool-selection over-privilege least-privilege ai-safety benchmark

摘要

本文研究了LLM Agent中的过度权限工具选择问题，引入了ToolPrivBench来评估并缓解不必要的高权限工具使用。研究发现，安全对齐并不能确保最小权限选择，并提出了一种训练后防御方法，能够在不牺牲性能的情况下减少过度权限的使用。

随着LLM Agent越来越自主地选择工具，它们在不同权限工具之间的选择变得与安全相关。然而，先前的工具选择研究主要关注与安全无关的元数据偏好，忽略了权限敏感的选择。为了填补这一空白，我们研究了过度权限工具选择问题，即Agent在有足够低权限替代方案的情况下，仍然选择或升级到更高权限的工具。我们引入了ToolPrivBench来评估Agent是否在有足够低权限替代方案时仍选择高权限工具，同时测量初始选择和瞬态工具故障后的升级行为。在八个领域和五种常见风险模式中，我们发现过度权限工具选择在主流LLM Agent中普遍存在，并且瞬态故障会进一步加剧这一现象。我们进一步发现，通用安全对齐无法可靠地迁移到最小权限工具选择上，而提示级别的控制仅能在瞬态故障下提供有限的缓解。因此，我们提出了一种权限感知的训练后防御方法，教导Agent优先选择足够的低权限工具，仅在必要时升级。我们的缓解实验表明，这种防御方法显著减少了不必要的高权限工具使用，同时保留了通用能力。

查看原文

查看缓存全文

缓存时间: 2026/06/25 09:11

论文页面 - 当较低权限足以胜任：探究LLM代理中的过度权限工具选择

来源: https://huggingface.co/papers/2606.20023

摘要

LLM代理常常不必要地选择高权限工具，尽管安全对齐无法确保最小权限选择，但后训练防御可以在不牺牲性能的情况下减少过度权限使用。

随着LLM代理越来越多地自主选择工具，它们在具有不同权限的工具之间做出选择变得与安全相关。然而，之前的工具选择研究主要关注与安全无关的元数据偏好，对权限敏感的选择（https://huggingface.co/papers?q=privilege-sensitive%20choices）探究不足。为填补这一空白，我们研究过度权限工具选择（https://huggingface.co/papers?q=over-privileged%20tool%20selection），即代理在存在足够低权限替代方案时，仍然选择或升级到高权限工具。我们引入ToolPrivBench（https://huggingface.co/papers?q=ToolPrivBench）来评估代理是否会在存在足够低权限替代方案时选择高权限工具，同时测量初始选择和在瞬态工具故障后的升级行为。在八个领域和五种重复风险模式中，我们发现过度权限工具选择（https://huggingface.co/papers?q=over-privileged%20tool%20selection）在主流LLM代理中普遍存在，并且瞬态故障进一步加剧了该现象。我们还发现，通用安全对齐无法可靠地迁移到最小权限工具选择（https://huggingface.co/papers?q=least-privilege%20tool%20choice），而提示级控制在瞬态故障下提供的缓解作用有限。因此，我们引入一种权限感知的后训练防御（https://huggingface.co/papers?q=post-training%20defense），教导代理优先选择足够低权限的工具，仅在必要时才升级。我们的缓解实验表明，该防御大幅减少不必要的高权限工具使用，同时保持通用能力。

查看arXiv页面（https://arxiv.org/abs/2606.20023）查看PDF（https://arxiv.org/pdf/2606.20023）GitHub3（https://github.com/AISafetyHub/agent-tool-selection-bias）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.20023）

在你的代理中获取这篇论文：

hf papers read 2606.20023

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.20023以从本页链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.20023以从本页链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.20023以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以从本页链接。

当较低权限即足够：探究LLM Agent中的过度权限工具选择

论文页面 - 当较低权限足以胜任：探究LLM代理中的过度权限工具选择

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

LLM代理已经知道何时调用工具——甚至无需推理

FORTIS：代理技能中的过度特权基准测试

能力最小化作为一种安全原语：面向最小权限LLM代理的风险感知因果门控

LLM代理中的忠实不确定性：实践中校准与效用权衡

ToolMenuBench：对可靠高效LLM代理的工具菜单过滤策略进行基准测试

提交意见反馈