从提示注入到持久控制:防御Agentic Harness中的特洛伊木马后门
摘要
本文介绍了针对本地LLM代理的多步特洛伊木马攻击,其中恶意提示嵌入在多个操作中以绕过现有防御。它提出了ClawTrojan基准和DASGuard防御来检测和缓解此类攻击。
查看缓存全文
缓存时间: 2026/06/01 03:18
论文页面 - 从提示注入到持久控制:防御智能体框架中的木马后门
来源:https://huggingface.co/papers/2605.31042
摘要
本地LLM智能体中的多步木马攻击能够通过跨多个操作嵌入恶意提示,绕过现有防御机制,因此需要像DASGuard这样的新型检测方法来实现有效防护。
LLM智能体(https://huggingface.co/papers?q=LLM%20agents)正从对话式聊天机器人演变为真实工作空间中的操作工具。在本地智能体框架中,LLM可以读写文件、调用工具,并在会话间复用工作空间状态。虽然这些能力提升了实用性,但也为攻击者暴露了新的攻击面。攻击者可以将提示注入(https://huggingface.co/papers?q=prompt%20injection)嵌入文件或工具输出中。智能体可能读取这条隐藏指令,存储它,并在后续执行。在这种多步木马攻击(https://huggingface.co/papers?q=multi-step%20trojan%20attack)范式下,每个单独的步骤看似无害,但这些步骤共同作用,能将不可信文本转化为持久控制内容。然而,现有防御手段通常孤立地检查每个步骤。因此,它们能阻止明显的恶意行为,却无法检测到植入后门的早期写入操作。为揭示这一威胁,我们引入了ClawTrojan,一个专门用于识别本地智能体框架中多步木马攻击(https://huggingface.co/papers?q=multi-step%20trojan%20attack)的基准测试。在基于OpenClaw(https://huggingface.co/papers?q=OpenClaw)风格的模拟工作空间中,结合GPT-5.4,ClawTrojan达到了95.5%的攻击成功率(ASR),而现有的单轮提示注入攻击在同一模型上ASR几乎为零。为应对这一威胁,我们提出了DASGuard(https://huggingface.co/papers?q=DASGuard),它扫描本地敏感文件中的类控制文本,追溯其来源,并移除非可信来源的控制内容。实验结果表明,DASGuard(https://huggingface.co/papers?q=DASGuard)通过结合运行时攻击拦截(https://huggingface.co/papers?q=runtime%20attack%20blocking)与工作空间的清理提交(https://huggingface.co/papers?q=sanitized%20commit),实现了强大的动态防御。
查看arXiv页面(https://arxiv.org/abs/2605.31042)查看PDF(https://arxiv.org/pdf/2605.31042)GitHub1(https://github.com/RUC-NLPIR/ClawTrojan)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31042)
在你的智能体中获取这篇论文:
hf papers read 2605.31042
没有最新版CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
在模型README.md中引用arxiv.org/abs/2605.31042以在此页面链接。
引用此论文的数据集1
zstanjj/ClawTrojan 更新于3分钟前(https://huggingface.co/datasets/zstanjj/ClawTrojan)
引用此论文的Space0
无Space关联此论文
在Space README.md中引用arxiv.org/abs/2605.31042以在此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以在此页面链接。
相似文章
美国禁令基准更新:两大巨头正面交锋!
美国禁令基准已更新,凸显两大科技公司之间的激烈竞争。
选择公共 DNS 解析器
一份全面的交互式指南,帮助用户根据隐私、恶意软件拦截、家长控制、速度和管辖区域等优先事项选择合适的公共 DNS 解析器,并附有完整的对比表格和研究支持的决策说明。
@MiaAI_lab: Qwopus 3.6-27b Coder 我收到很多请求让我测试它,于是我进行了测试。我运行了与其他模型相同的测试。它…
MiaAI Lab 测试了 Qwopus 3.6-27b Coder,发现在工具调用和代码生成方面表现不如 Qwen 3.6 27b 和 35b,且 HTML 演示出现故障。
使用 LXC 增强 X11 应用程序安全性
一份技术指南,介绍如何使用非特权 LXC 容器隔离 X11 应用程序(如网页浏览器),通过将容器 UID/GID 映射到未使用的主机范围来增强安全性。
pomerium: Pomerium 是一个身份和上下文感知的访问代理
Pomerium 是一个身份和上下文感知的反向代理,无需 VPN 即可提供对内部 Web 应用的安全、无客户端访问。