SafeHarbor:面向LLM代理安全的分层记忆增强护栏

Hugging Face Daily Papers 论文

摘要

SafeHarbor是一个用于LLM代理安全的新型框架,它利用分层记忆和自进化机制来平衡安全性与实用性,在良性任务和恶意任务上均实现了最先进的性能。

随着基础模型的快速发展,大语言模型(LLM)代理已展现出日益强大的工具使用能力。然而,这种能力也带来了显著的安全风险,因为恶意行为者可以操控代理执行工具,生成有害内容。现有的防御机制虽然有效,但常常面临过度拒绝(over-refusal)问题,即提高安全严格性会损害代理在良性任务上的实用性。为了缓解这一权衡,我们提出了SafeHarbor,一个旨在为LLM代理建立精确决策边界的新型框架。与静态指南不同,SafeHarbor通过增强的对抗生成提取上下文感知的防御规则。我们设计了一个局部层次记忆系统用于动态规则注入,提供了一种无需训练、高效且即插即用的解决方案。此外,我们引入了一种基于信息熵的自进化机制,通过动态节点分裂与合并持续优化记忆结构。大量实验表明,SafeHarbor在模糊的良性任务和明确的恶意攻击上均取得了最先进的性能,尤其在GPT-4o上实现了63.6%的峰值良性效用,同时针对有害请求保持了超过93%的稳健拒绝率。源代码已在https://github.com/ljj-cyber/SafeHarbor公开。
查看原文
查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - SafeHarbor:面向LLM智能体安全的分层记忆增强防护栏

来源:https://huggingface.co/papers/2605.05704 发表于 5月7日

·

由 https://huggingface.co/ljjDL 提交

ZheLiu (https://huggingface.co/ljjDL) 于 5月14日

摘要

SafeHarbor 是一个面向 LLM 智能体的新型框架,通过基于上下文的防御规则建立精确决策边界,并采用分层记忆系统和自我进化机制来平衡安全性与实用性。

随着基础模型的快速发展,大型语言模型(LLM)智能体展现出日益强大的工具使用能力 (https://huggingface.co/papers?q=tool-use%20capabilities)。然而,这种能力也带来了重大安全风险——恶意行为者可操纵智能体执行工具以生成有害内容。现有防御机制虽有效,但常存在过度拒绝问题,即安全严格性的提升会损害智能体在良性任务上的实用性。为缓解这一权衡,我们提出 SafeHarbor,这是一个旨在为 LLM 智能体建立精确决策边界 (https://huggingface.co/papers?q=decision%20boundaries) 的新型框架。与静态准则不同,SafeHarbor 通过增强型对抗生成 (https://huggingface.co/papers?q=adversarial%20generation) 提取基于上下文的防御规则 (https://huggingface.co/papers?q=defense%20rules)。我们设计了一个局部分层记忆系统 (https://huggingface.co/papers?q=local%20hierarchical%20memory%20system) 用于动态规则注入 (https://huggingface.co/papers?q=dynamic%20rule%20injection),提供一种免训练、高效且即插即用的解决方案 (https://huggingface.co/papers?q=plug-and-play%20solution)。此外,我们引入了一种基于信息熵的自我进化机制 (https://huggingface.co/papers?q=information%20entropy-based%20self-evolution%20mechanism),通过动态节点拆分与合并不断优化记忆结构。大量实验表明,SafeHarbor 在模糊良性任务和显式恶意攻击任务上均达到最先进性能,尤其在 GPT-4o 上实现了 63.6% 的峰值良性实用性,同时针对有害请求保持了超过 93% 的稳健拒绝率。源代码已公开发布于 https://github.com/ljj-cyber/SafeHarbor。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05704) 查看 PDF (https://arxiv.org/pdf/2605.05704) GitHub 5 (https://github.com/ljj-cyber/SafeHarbor) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05704)

在您的智能体中获取此论文:

hf papers read 2605.05704

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型与此论文关联

请在模型 README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。

引用此论文的数据集0

尚无数据集与此论文关联

请在数据集 README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。

引用此论文的 Space0

尚无 Space 与此论文关联

请在 Space README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立关联。

相似文章

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。

PropGuard:通过传播感知的探索与修复保障LLM-MAS安全

arXiv cs.LG

PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。