LLM代理的冷启动安全差距
摘要
本文识别了工具调用型LLM代理中的'冷启动安全差距'现象,即它们在会话开始时最脆弱,而在完成常规代理任务后变得更加安全。作者引入了SODA基准来评估这一现象,并推荐一种简单的部署策略:在安全关键请求之前,先让代理通过常规任务进行预热。
查看缓存全文
缓存时间: 2026/06/12 18:54
页面 - 大语言模型智能体的冷启动安全差距
来源: https://huggingface.co/papers/2606.07867
摘要
工具调用型语言模型智能体在初步交互后安全性有所提升,系统基准测试表明,通过先完成任务可实现更高的安全性。
工具调用型大语言模型智能体(https://huggingface.co/papers?q=tool-calling%20LLM%20agents)在整段对话中的安全性是否始终一致?我们发现并非如此:智能体在会话初始阶段最为脆弱,而在完成几项常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)后会变得显著安全——我们将此现象称为冷启动安全差距(https://huggingface.co/papers?q=cold-start%20safety%20gap)。为系统研究此现象,我们引入智能体安全深度评估(Safety Over Depth for Agents,https://huggingface.co/papers?q=Safety%20Over%20Depth%20for%20Agents)(SODA)基准测试,该测试能够控制智能体在遭遇安全威胁前完成的常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)数量,最多支持前序20个任务。评估来自4个系列的7个模型发现,当前序常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)从0增加至20时,安全性提升9%至52%。表征分析(https://huggingface.co/papers?q=Representation%20analysis)证实,随着前序任务增加,模型的隐藏状态(https://huggingface.co/papers?q=hidden%20states)逐渐向安全对齐区域偏移。通过系统研究前序对话中哪部分最为关键,我们发现常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)本身是安全性的主要驱动因素,而智能体自身之前的回复对安全性影响较小,但对维持后续实用性至关重要。这一结论在开源安全基准测试(https://huggingface.co/papers?q=safety%20benchmarks)(AgentHarm、Agent Safety Bench)和实用性基准测试(https://huggingface.co/papers?q=utility%20benchmarks)(BFCL、API-Bank)上得到进一步支持,证实了在部署前用常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)预热智能体能使其更安全且保持完整能力。基于这些发现,我们推荐一种简单的部署策略(https://huggingface.co/papers?q=deployment%20策略):让智能体在可能遭遇安全关键请求前完成几项常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks),以缓解冷启动安全差距(https://huggingface.co/papers?q=cold-start%20safety%20gap)。我们的代码见 https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap
查看 arXiv 页面(https://arxiv.org/abs/2606.07867)查看 PDF(https://arxiv.org/pdf/2606.07867)项目页面(https://lilywenglab.github.io/Agent-Cold-Start-Safety-Gap/)GitHub0(https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.07867)
在您的智能体中获取此论文:
hf papers read 2606.07867
没有最新命令行工具?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
cesun/SODA-Agent-Safety-Judge Text Generation• 4B• 更新于约17小时前(https://huggingface.co/cesun/SODA-Agent-Safety-Judge)
引用此论文的数据集1
cesun/SODA Viewer• 更新于约17小时前 • 25.6k • 8(https://huggingface.co/datasets/cesun/SODA)
引用此论文的Space0
没有Space链接此论文
请在Space的README.md中引用 arxiv.org/abs/2606.07867,以从本页面链接到该Space。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加至收藏集(https://huggingface.co/new-collection),以从本页面链接到该收藏集。
相似文章
SABER:在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准
SABER引入了一个基准,用于评估LLM编码代理在真实具有状态的项目工作空间中的操作安全性,显示即使是最佳模型也有超过54%的有害安全违规率,表明在真实世界环境中的对齐不足。
当工具失灵:LLM智能体动态重新规划与异常恢复的基准测试
ToolMaze基准测试评估了LLM智能体处理真实世界工具故障的能力,揭示了隐式语义故障导致的性能下降最为显著,而动态重新规划仍是模型扩展或提示工程无法解决的关键瓶颈。
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。
LLM代理已经知道何时调用工具——甚至无需推理
本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。