SABER:在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准

Hugging Face Daily Papers 论文

摘要

SABER引入了一个基准,用于评估LLM编码代理在真实具有状态的项目工作空间中的操作安全性,显示即使是最佳模型也有超过54%的有害安全违规率,表明在真实世界环境中的对齐不足。

大型语言模型越来越多地被部署为编码代理,将安全性从单个响应转移到动作序列。然而,现有的基准主要评估模型是否拒绝不安全的提示,而很大程度上忽略了对具有状态的工作空间的影响。我们提出SABER,一个环境感知的操作安全性基准,将模型置于真实的代理风格项目中,并根据一系列动作后的最终环境状态评估安全性。除了二元安全违规报告外,SABER根据原因对违规进行分类,从而能够分析特定模型的安全概况。我们的评估显示,即使是最佳性能的模型也有超过54%的有害安全违规率(HSR),表明当前的对齐对于真实项目环境仍然不足。SABER进一步揭示了不同模型的独特安全概况。我们的基准公开在https://github.com/sssr-lab/saber。
查看原文
查看缓存全文

缓存时间: 2026/06/05 18:09

论文页面 - SABER:状态化项目工作空间中LLM编码代理的操作安全性基准测试

来源:https://huggingface.co/papers/2606.01317
发布于5月31日

·

提交者https://huggingface.co/lingfengzhe

Qi HU (https://huggingface.co/lingfengzhe)于6月5日

摘要

部署为编码代理的大语言模型在现实项目环境中表现出显著的安全违规行为,这需要超越简单提示拒绝评估的新评估方法。

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)日益被部署为编码代理 (https://huggingface.co/papers?q=coding%20agents),安全性从单个响应转向动作序列。然而,现有基准主要评估模型是否拒绝不安全提示,而忽略了对状态化工作空间 (https://huggingface.co/papers?q=stateful%20workspaces)的影响。我们提出SABER,一个面向环境感知操作安全性 (https://huggingface.co/papers?q=environment-aware%20operational%20safety)的基准,将模型置于真实的代理风格项目 (https://huggingface.co/papers?q=agent-style%20projects)中,并根据动作序列后的最终环境状态评估安全性。除了二元的安全违规报告,SABER还按原因对违规进行分类,从而能够分析模型特定的安全概况。我们的评估显示,即使性能最好的模型也有超过54%的有害安全违规率 (https://huggingface.co/papers?q=harmful%20safety-violation%20rate)(HSR),这表明当前的(对齐) (https://huggingface.co/papers?q=alignment)对于现实项目环境仍然不足。SABER还揭示了不同模型之间不同的安全概况。我们的基准在https://github.com/sssr-lab/saber上公开提供。

查看arXiv页面 (https://arxiv.org/abs/2606.01317) 查看PDF (https://arxiv.org/pdf/2606.01317) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01317)

在你的代理中获取此论文:

hf papers read 2606\.01317

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.01317即可从此页面链接。

引用此论文的数据集1

sssr-lab/SABER 查看器• 更新于约5小时前 • 1.43k • 7k (https://huggingface.co/datasets/sssr-lab/SABER)

引用此论文的Space0

暂无Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.01317即可从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

相似文章

当无基准存在时:验证无真实标签的LLM安全评分比较

Hugging Face Daily Papers

本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。

LLM代理的冷启动安全差距

Hugging Face Daily Papers

本文识别了工具调用型LLM代理中的'冷启动安全差距'现象,即它们在会话开始时最脆弱,而在完成常规代理任务后变得更加安全。作者引入了SODA基准来评估这一现象,并推荐一种简单的部署策略:在安全关键请求之前,先让代理通过常规任务进行预热。

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。