LLM代理的冷启动安全差距

Hugging Face Daily Papers 论文

摘要

本文识别了工具调用型LLM代理中的'冷启动安全差距'现象,即它们在会话开始时最脆弱,而在完成常规代理任务后变得更加安全。作者引入了SODA基准来评估这一现象,并推荐一种简单的部署策略:在安全关键请求之前,先让代理通过常规任务进行预热。

工具调用型LLM代理在对话过程中是否同等安全?我们发现并非如此:代理在会话一开始时最脆弱,而在完成几个常规代理任务后变得显著更安全——我们将这一现象称为冷启动安全差距。为了系统性地研究这一点,我们引入了SODA(Safety Over Depth for Agents)基准,该基准可控制在遇到安全威胁前代理完成的常规代理任务数量,最多支持20个前置任务。在对来自4个模型家族的7个模型进行评估后,安全性能随着前置常规代理任务数量从0增加到20而提高了9%至52%。表征分析证实,随着前置任务的增加,模型的隐藏状态逐渐向安全对齐区域移动。通过系统研究前置对话中哪一部分最为重要,我们发现常规代理任务本身是安全的主要驱动力,而代理自身的先前响应对安全的影响较小,但对于保持后续效用至关重要。这一结论还通过对开源安全基准(AgentHarm、Agent Safety Bench)和效用基准(BFCL、API-Bank)的评估得到了进一步支持,证实了在部署前用常规代理任务预热代理可以使其更安全并保持全部能力。基于这些发现,我们推荐一种简单的部署策略:在可能暴露于安全关键请求之前,让代理完成几个常规代理任务,以缓解冷启动安全差距。我们的代码可在 https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/12 18:54

页面 - 大语言模型智能体的冷启动安全差距

来源: https://huggingface.co/papers/2606.07867

摘要

工具调用型语言模型智能体在初步交互后安全性有所提升,系统基准测试表明,通过先完成任务可实现更高的安全性。

工具调用型大语言模型智能体(https://huggingface.co/papers?q=tool-calling%20LLM%20agents)在整段对话中的安全性是否始终一致?我们发现并非如此:智能体在会话初始阶段最为脆弱,而在完成几项常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)后会变得显著安全——我们将此现象称为冷启动安全差距(https://huggingface.co/papers?q=cold-start%20safety%20gap)。为系统研究此现象,我们引入智能体安全深度评估(Safety Over Depth for Agents,https://huggingface.co/papers?q=Safety%20Over%20Depth%20for%20Agents)(SODA)基准测试,该测试能够控制智能体在遭遇安全威胁前完成的常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)数量,最多支持前序20个任务。评估来自4个系列的7个模型发现,当前序常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)从0增加至20时,安全性提升9%至52%。表征分析(https://huggingface.co/papers?q=Representation%20analysis)证实,随着前序任务增加,模型的隐藏状态(https://huggingface.co/papers?q=hidden%20states)逐渐向安全对齐区域偏移。通过系统研究前序对话中哪部分最为关键,我们发现常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)本身是安全性的主要驱动因素,而智能体自身之前的回复对安全性影响较小,但对维持后续实用性至关重要。这一结论在开源安全基准测试(https://huggingface.co/papers?q=safety%20benchmarks)(AgentHarm、Agent Safety Bench)和实用性基准测试(https://huggingface.co/papers?q=utility%20benchmarks)(BFCL、API-Bank)上得到进一步支持,证实了在部署前用常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks)预热智能体能使其更安全且保持完整能力。基于这些发现,我们推荐一种简单的部署策略(https://huggingface.co/papers?q=deployment%20策略):让智能体在可能遭遇安全关键请求前完成几项常规智能体任务(https://huggingface.co/papers?q=agentic%20tasks),以缓解冷启动安全差距(https://huggingface.co/papers?q=cold-start%20safety%20gap)。我们的代码见 https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap

查看 arXiv 页面(https://arxiv.org/abs/2606.07867)查看 PDF(https://arxiv.org/pdf/2606.07867)项目页面(https://lilywenglab.github.io/Agent-Cold-Start-Safety-Gap/)GitHub0(https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.07867)

在您的智能体中获取此论文:

hf papers read 2606.07867

没有最新命令行工具?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

cesun/SODA-Agent-Safety-Judge Text Generation• 4B• 更新于约17小时前(https://huggingface.co/cesun/SODA-Agent-Safety-Judge)

引用此论文的数据集1

cesun/SODA Viewer• 更新于约17小时前 • 25.6k • 8(https://huggingface.co/datasets/cesun/SODA)

引用此论文的Space0

没有Space链接此论文

请在Space的README.md中引用 arxiv.org/abs/2606.07867,以从本页面链接到该Space。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加至收藏集(https://huggingface.co/new-collection),以从本页面链接到该收藏集。

相似文章

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。