SafeHarbor：面向LLM代理安全的分层记忆增强护栏

Hugging Face Daily Papers 2026/05/07 00:00 论文

llm-safety guardrails memory-augmented hierarchical-memory adversarial-generation llm-agents self-evolution

摘要

SafeHarbor是一个用于LLM代理安全的新型框架，它利用分层记忆和自进化机制来平衡安全性与实用性，在良性任务和恶意任务上均实现了最先进的性能。

随着基础模型的快速发展，大语言模型（LLM）代理已展现出日益强大的工具使用能力。然而，这种能力也带来了显著的安全风险，因为恶意行为者可以操控代理执行工具，生成有害内容。现有的防御机制虽然有效，但常常面临过度拒绝（over-refusal）问题，即提高安全严格性会损害代理在良性任务上的实用性。为了缓解这一权衡，我们提出了SafeHarbor，一个旨在为LLM代理建立精确决策边界的新型框架。与静态指南不同，SafeHarbor通过增强的对抗生成提取上下文感知的防御规则。我们设计了一个局部层次记忆系统用于动态规则注入，提供了一种无需训练、高效且即插即用的解决方案。此外，我们引入了一种基于信息熵的自进化机制，通过动态节点分裂与合并持续优化记忆结构。大量实验表明，SafeHarbor在模糊的良性任务和明确的恶意攻击上均取得了最先进的性能，尤其在GPT-4o上实现了63.6%的峰值良性效用，同时针对有害请求保持了超过93%的稳健拒绝率。源代码已在https://github.com/ljj-cyber/SafeHarbor公开。

查看原文

查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - SafeHarbor：面向LLM智能体安全的分层记忆增强防护栏

来源：https://huggingface.co/papers/2605.05704 发表于 5月7日

由 https://huggingface.co/ljjDL 提交

ZheLiu (https://huggingface.co/ljjDL) 于 5月14日

摘要

SafeHarbor 是一个面向 LLM 智能体的新型框架，通过基于上下文的防御规则建立精确决策边界，并采用分层记忆系统和自我进化机制来平衡安全性与实用性。

随着基础模型的快速发展，大型语言模型（LLM）智能体展现出日益强大的工具使用能力 (https://huggingface.co/papers?q=tool-use%20capabilities)。然而，这种能力也带来了重大安全风险——恶意行为者可操纵智能体执行工具以生成有害内容。现有防御机制虽有效，但常存在过度拒绝问题，即安全严格性的提升会损害智能体在良性任务上的实用性。为缓解这一权衡，我们提出 SafeHarbor，这是一个旨在为 LLM 智能体建立精确决策边界 (https://huggingface.co/papers?q=decision%20boundaries) 的新型框架。与静态准则不同，SafeHarbor 通过增强型对抗生成 (https://huggingface.co/papers?q=adversarial%20generation) 提取基于上下文的防御规则 (https://huggingface.co/papers?q=defense%20rules)。我们设计了一个局部分层记忆系统 (https://huggingface.co/papers?q=local%20hierarchical%20memory%20system) 用于动态规则注入 (https://huggingface.co/papers?q=dynamic%20rule%20injection)，提供一种免训练、高效且即插即用的解决方案 (https://huggingface.co/papers?q=plug-and-play%20solution)。此外，我们引入了一种基于信息熵的自我进化机制 (https://huggingface.co/papers?q=information%20entropy-based%20self-evolution%20mechanism)，通过动态节点拆分与合并不断优化记忆结构。大量实验表明，SafeHarbor 在模糊良性任务和显式恶意攻击任务上均达到最先进性能，尤其在 GPT-4o 上实现了 63.6% 的峰值良性实用性，同时针对有害请求保持了超过 93% 的稳健拒绝率。源代码已公开发布于 https://github.com/ljj-cyber/SafeHarbor。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05704) 查看 PDF (https://arxiv.org/pdf/2605.05704) GitHub 5 (https://github.com/ljj-cyber/SafeHarbor) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05704)

在您的智能体中获取此论文：

hf papers read 2605.05704

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型与此论文关联

请在模型 README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。

引用此论文的数据集0

尚无数据集与此论文关联

请在数据集 README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。

引用此论文的 Space0

尚无 Space 与此论文关联

请在 Space README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立关联。

相似文章

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象，即有毒或对抗性上下文被压缩成记忆摘要后，能够逃避标准毒性检测器，同时仍影响后续生成。文章引入了亚阈值传播间隙（SPG）来衡量隐藏的下游影响，并表明在摘要之前对有毒状态进行消毒比事后清理更有效。

H-Mem：一种通过混合结构实现智能体记忆演化与检索的新型记忆机制

arXiv cs.CL

H-Mem是一种面向基于LLM的智能体的新型记忆机制，采用时间-语义树与知识图谱相结合的混合结构，以建模记忆演化并提升检索性能，在问答基准上实现了最先进水平。

PropGuard：通过传播感知的探索与修复保障LLM-MAS安全

arXiv cs.LG

PropGuard是一种传播感知框架，用于保护基于LLM的多智能体系统（LLM-MAS）免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图，并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。

基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性