SafeHarbor:面向LLM代理安全的分层记忆增强护栏
摘要
SafeHarbor是一个用于LLM代理安全的新型框架,它利用分层记忆和自进化机制来平衡安全性与实用性,在良性任务和恶意任务上均实现了最先进的性能。
查看缓存全文
缓存时间: 2026/05/14 08:17
论文页面 - SafeHarbor:面向LLM智能体安全的分层记忆增强防护栏
来源:https://huggingface.co/papers/2605.05704 发表于 5月7日
·
由 https://huggingface.co/ljjDL 提交
ZheLiu (https://huggingface.co/ljjDL) 于 5月14日
摘要
SafeHarbor 是一个面向 LLM 智能体的新型框架,通过基于上下文的防御规则建立精确决策边界,并采用分层记忆系统和自我进化机制来平衡安全性与实用性。
随着基础模型的快速发展,大型语言模型(LLM)智能体展现出日益强大的工具使用能力 (https://huggingface.co/papers?q=tool-use%20capabilities)。然而,这种能力也带来了重大安全风险——恶意行为者可操纵智能体执行工具以生成有害内容。现有防御机制虽有效,但常存在过度拒绝问题,即安全严格性的提升会损害智能体在良性任务上的实用性。为缓解这一权衡,我们提出 SafeHarbor,这是一个旨在为 LLM 智能体建立精确决策边界 (https://huggingface.co/papers?q=decision%20boundaries) 的新型框架。与静态准则不同,SafeHarbor 通过增强型对抗生成 (https://huggingface.co/papers?q=adversarial%20generation) 提取基于上下文的防御规则 (https://huggingface.co/papers?q=defense%20rules)。我们设计了一个局部分层记忆系统 (https://huggingface.co/papers?q=local%20hierarchical%20memory%20system) 用于动态规则注入 (https://huggingface.co/papers?q=dynamic%20rule%20injection),提供一种免训练、高效且即插即用的解决方案 (https://huggingface.co/papers?q=plug-and-play%20solution)。此外,我们引入了一种基于信息熵的自我进化机制 (https://huggingface.co/papers?q=information%20entropy-based%20self-evolution%20mechanism),通过动态节点拆分与合并不断优化记忆结构。大量实验表明,SafeHarbor 在模糊良性任务和显式恶意攻击任务上均达到最先进性能,尤其在 GPT-4o 上实现了 63.6% 的峰值良性实用性,同时针对有害请求保持了超过 93% 的稳健拒绝率。源代码已公开发布于 https://github.com/ljj-cyber/SafeHarbor。
查看 arXiv 页面 (https://arxiv.org/abs/2605.05704) 查看 PDF (https://arxiv.org/pdf/2605.05704) GitHub 5 (https://github.com/ljj-cyber/SafeHarbor) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05704)
在您的智能体中获取此论文:
hf papers read 2605.05704
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型与此论文关联
请在模型 README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。
引用此论文的数据集0
尚无数据集与此论文关联
请在数据集 README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。
引用此论文的 Space0
尚无 Space 与此论文关联
请在 Space README.md 中引用 arxiv.org/abs/2605.05704 以在此页面建立关联。
包含此论文的收藏集0
尚无收藏集包含此论文
请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立关联。
相似文章
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。
PropGuard:通过传播感知的探索与修复保障LLM-MAS安全
PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。
基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性
本文提出了一种记忆增强的多智能体架构,采用嵌套学习、连续记忆系统和语义缓存来缓解LLM流程中的幻觉问题,在显著减少事实错误的同时提高了运营效率。
HeLa-Mem:面向LLM智能体的赫布学习与联想记忆
# HeLa-Mem: Hebbian Learning and Associative Memory for LLM Agents 来源:[https://arxiv.org/html/2604.16839](https://arxiv.org/html/2604.16839) Jinchang Zhu1,∗,a, Jindong Li1,∗, Cheng Zhang2,∗, Jiahong Liu3, Menglin Yang1,†,b 1香港科技大学(广州) 2吉林大学 3香港中文大学 [email protected] [email protected] ∗同等贡献 †通讯作者 ###### 摘要 长...