SABER：在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准

Hugging Face Daily Papers 2026/05/31 00:00 论文

benchmarking safety large-language-models coding-agents stateful-workspaces alignment environment-aware

摘要

SABER引入了一个基准，用于评估LLM编码代理在真实具有状态的项目工作空间中的操作安全性，显示即使是最佳模型也有超过54%的有害安全违规率，表明在真实世界环境中的对齐不足。

大型语言模型越来越多地被部署为编码代理，将安全性从单个响应转移到动作序列。然而，现有的基准主要评估模型是否拒绝不安全的提示，而很大程度上忽略了对具有状态的工作空间的影响。我们提出SABER，一个环境感知的操作安全性基准，将模型置于真实的代理风格项目中，并根据一系列动作后的最终环境状态评估安全性。除了二元安全违规报告外，SABER根据原因对违规进行分类，从而能够分析特定模型的安全概况。我们的评估显示，即使是最佳性能的模型也有超过54%的有害安全违规率（HSR），表明当前的对齐对于真实项目环境仍然不足。SABER进一步揭示了不同模型的独特安全概况。我们的基准公开在https://github.com/sssr-lab/saber。

查看原文

查看缓存全文

缓存时间: 2026/06/05 18:09

论文页面 - SABER：状态化项目工作空间中LLM编码代理的操作安全性基准测试

来源：https://huggingface.co/papers/2606.01317
发布于5月31日

提交者https://huggingface.co/lingfengzhe

Qi HU (https://huggingface.co/lingfengzhe)于6月5日

摘要

部署为编码代理的大语言模型在现实项目环境中表现出显著的安全违规行为，这需要超越简单提示拒绝评估的新评估方法。

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)日益被部署为编码代理 (https://huggingface.co/papers?q=coding%20agents)，安全性从单个响应转向动作序列。然而，现有基准主要评估模型是否拒绝不安全提示，而忽略了对状态化工作空间 (https://huggingface.co/papers?q=stateful%20workspaces)的影响。我们提出SABER，一个面向环境感知操作安全性 (https://huggingface.co/papers?q=environment-aware%20operational%20safety)的基准，将模型置于真实的代理风格项目 (https://huggingface.co/papers?q=agent-style%20projects)中，并根据动作序列后的最终环境状态评估安全性。除了二元的安全违规报告，SABER还按原因对违规进行分类，从而能够分析模型特定的安全概况。我们的评估显示，即使性能最好的模型也有超过54%的有害安全违规率 (https://huggingface.co/papers?q=harmful%20safety-violation%20rate)(HSR)，这表明当前的(对齐) (https://huggingface.co/papers?q=alignment)对于现实项目环境仍然不足。SABER还揭示了不同模型之间不同的安全概况。我们的基准在https://github.com/sssr-lab/saber上公开提供。

查看arXiv页面 (https://arxiv.org/abs/2606.01317) 查看PDF (https://arxiv.org/pdf/2606.01317) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01317)

在你的代理中获取此论文：

hf papers read 2606\.01317

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.01317即可从此页面链接。

引用此论文的数据集1

sssr-lab/SABER 查看器• 更新于约5小时前 • 1.43k • 7k (https://huggingface.co/datasets/sssr-lab/SABER)

引用此论文的Space0

暂无Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.01317即可从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

SABER：在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准

论文页面 - SABER：状态化项目工作空间中LLM编码代理的操作安全性基准测试

摘要

引用此论文的模型0

引用此论文的数据集1

sssr-lab/SABER 查看器• 更新于约5小时前 • 1.43k • 7k (https://huggingface.co/datasets/sssr-lab/SABER)

引用此论文的Space0

包含此论文的收藏集0

相似文章

当无基准存在时：验证无真实标签的LLM安全评分比较

SaaSBench：探索编码智能体在长周期企业SaaS工程中的边界

SafeHarbor：面向LLM代理安全的分层记忆增强护栏

LLM代理的冷启动安全差距

MemEvoBench：LLM 代理内存误演化基准测试

提交意见反馈