SABER:在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准
摘要
SABER引入了一个基准,用于评估LLM编码代理在真实具有状态的项目工作空间中的操作安全性,显示即使是最佳模型也有超过54%的有害安全违规率,表明在真实世界环境中的对齐不足。
查看缓存全文
缓存时间: 2026/06/05 18:09
论文页面 - SABER:状态化项目工作空间中LLM编码代理的操作安全性基准测试
来源:https://huggingface.co/papers/2606.01317
发布于5月31日
·
提交者https://huggingface.co/lingfengzhe
Qi HU (https://huggingface.co/lingfengzhe)于6月5日
摘要
部署为编码代理的大语言模型在现实项目环境中表现出显著的安全违规行为,这需要超越简单提示拒绝评估的新评估方法。
大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)日益被部署为编码代理 (https://huggingface.co/papers?q=coding%20agents),安全性从单个响应转向动作序列。然而,现有基准主要评估模型是否拒绝不安全提示,而忽略了对状态化工作空间 (https://huggingface.co/papers?q=stateful%20workspaces)的影响。我们提出SABER,一个面向环境感知操作安全性 (https://huggingface.co/papers?q=environment-aware%20operational%20safety)的基准,将模型置于真实的代理风格项目 (https://huggingface.co/papers?q=agent-style%20projects)中,并根据动作序列后的最终环境状态评估安全性。除了二元的安全违规报告,SABER还按原因对违规进行分类,从而能够分析模型特定的安全概况。我们的评估显示,即使性能最好的模型也有超过54%的有害安全违规率 (https://huggingface.co/papers?q=harmful%20safety-violation%20rate)(HSR),这表明当前的(对齐) (https://huggingface.co/papers?q=alignment)对于现实项目环境仍然不足。SABER还揭示了不同模型之间不同的安全概况。我们的基准在https://github.com/sssr-lab/saber上公开提供。
查看arXiv页面 (https://arxiv.org/abs/2606.01317) 查看PDF (https://arxiv.org/pdf/2606.01317) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01317)
在你的代理中获取此论文:
hf papers read 2606\.01317
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.01317即可从此页面链接。
引用此论文的数据集1
sssr-lab/SABER 查看器• 更新于约5小时前 • 1.43k • 7k (https://huggingface.co/datasets/sssr-lab/SABER)
引用此论文的Space0
暂无Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.01317即可从此页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。
相似文章
当无基准存在时:验证无真实标签的LLM安全评分比较
本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。
SaaSBench:探索编码智能体在长周期企业SaaS工程中的边界
SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准,涉及多组件系统集成,包含30个任务、6个领域和5370个验证节点。实验表明,智能体的主要瓶颈在于系统配置与集成,而非孤立的代码生成。
SafeHarbor:面向LLM代理安全的分层记忆增强护栏
SafeHarbor是一个用于LLM代理安全的新型框架,它利用分层记忆和自进化机制来平衡安全性与实用性,在良性任务和恶意任务上均实现了最先进的性能。
LLM代理的冷启动安全差距
本文识别了工具调用型LLM代理中的'冷启动安全差距'现象,即它们在会话开始时最脆弱,而在完成常规代理任务后变得更加安全。作者引入了SODA基准来评估这一现象,并推荐一种简单的部署策略:在安全关键请求之前,先让代理通过常规任务进行预热。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。