从提示注入到持久控制:防御Agentic Harness中的特洛伊木马后门

Hugging Face Daily Papers 论文

摘要

本文介绍了针对本地LLM代理的多步特洛伊木马攻击,其中恶意提示嵌入在多个操作中以绕过现有防御。它提出了ClawTrojan基准和DASGuard防御来检测和缓解此类攻击。

LLM代理正从对话式聊天机器人演变为实际工作空间中的操作工具。在本地Agentic Harness中,LLM可以读写文件、调用工具,并在会话之间复用工作空间状态。虽然这种能力增强了实用性,但也为攻击者暴露了新的攻击面。攻击者可以将提示注入嵌入到文件或工具输出中。代理可能会读取这条隐藏指令,将其存储起来,并在稍后执行。在这种多步特洛伊木马攻击范式中,没有任何单个步骤本身看起来是恶意的,但这些步骤可以共同将不可信的文本转变为持久控制内容。然而,现有的防御通常孤立地检查每个步骤。结果,它们可以阻止明显的有害操作,但无法检测到植入后门的早期写入操作。为了揭示这一威胁,我们引入了ClawTrojan,这是一个专门用于识别本地Agentic Harness中多步特洛伊木马攻击的基准测试。在采用GPT-5.4的OpenClaw风格模拟工作空间中,ClawTrojan达到了95.5%的攻击成功率(ASR),而现有的单轮提示注入攻击在同一模型上的ASR几乎为零。为了解决这一威胁,我们提出了DASGuard,它扫描敏感本地文件中的控制类文本,追踪其来源,并移除并非来自可信来源的控制内容。我们的结果表明,DASGuard通过结合运行时攻击阻止与工作空间的清理提交,实现了强大的动态防御。
查看原文
查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - 从提示注入到持久控制:防御智能体框架中的木马后门

来源:https://huggingface.co/papers/2605.31042

摘要

本地LLM智能体中的多步木马攻击能够通过跨多个操作嵌入恶意提示,绕过现有防御机制,因此需要像DASGuard这样的新型检测方法来实现有效防护。

LLM智能体(https://huggingface.co/papers?q=LLM%20agents)正从对话式聊天机器人演变为真实工作空间中的操作工具。在本地智能体框架中,LLM可以读写文件、调用工具,并在会话间复用工作空间状态。虽然这些能力提升了实用性,但也为攻击者暴露了新的攻击面。攻击者可以将提示注入(https://huggingface.co/papers?q=prompt%20injection)嵌入文件或工具输出中。智能体可能读取这条隐藏指令,存储它,并在后续执行。在这种多步木马攻击(https://huggingface.co/papers?q=multi-step%20trojan%20attack)范式下,每个单独的步骤看似无害,但这些步骤共同作用,能将不可信文本转化为持久控制内容。然而,现有防御手段通常孤立地检查每个步骤。因此,它们能阻止明显的恶意行为,却无法检测到植入后门的早期写入操作。为揭示这一威胁,我们引入了ClawTrojan,一个专门用于识别本地智能体框架中多步木马攻击(https://huggingface.co/papers?q=multi-step%20trojan%20attack)的基准测试。在基于OpenClaw(https://huggingface.co/papers?q=OpenClaw)风格的模拟工作空间中,结合GPT-5.4,ClawTrojan达到了95.5%的攻击成功率(ASR),而现有的单轮提示注入攻击在同一模型上ASR几乎为零。为应对这一威胁,我们提出了DASGuard(https://huggingface.co/papers?q=DASGuard),它扫描本地敏感文件中的类控制文本,追溯其来源,并移除非可信来源的控制内容。实验结果表明,DASGuard(https://huggingface.co/papers?q=DASGuard)通过结合运行时攻击拦截(https://huggingface.co/papers?q=runtime%20attack%20blocking)与工作空间的清理提交(https://huggingface.co/papers?q=sanitized%20commit),实现了强大的动态防御。

查看arXiv页面(https://arxiv.org/abs/2605.31042)查看PDF(https://arxiv.org/pdf/2605.31042)GitHub1(https://github.com/RUC-NLPIR/ClawTrojan)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31042)

在你的智能体中获取这篇论文:

hf papers read 2605.31042

没有最新版CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.31042以在此页面链接。

引用此论文的数据集1

zstanjj/ClawTrojan 更新于3分钟前(https://huggingface.co/datasets/zstanjj/ClawTrojan)

引用此论文的Space0

无Space关联此论文

在Space README.md中引用arxiv.org/abs/2605.31042以在此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以在此页面链接。

相似文章

选择公共 DNS 解析器

Hacker News Top

一份全面的交互式指南,帮助用户根据隐私、恶意软件拦截、家长控制、速度和管辖区域等优先事项选择合适的公共 DNS 解析器,并附有完整的对比表格和研究支持的决策说明。

使用 LXC 增强 X11 应用程序安全性

Hacker News Top

一份技术指南,介绍如何使用非特权 LXC 容器隔离 X11 应用程序(如网页浏览器),通过将容器 UID/GID 映射到未使用的主机范围来增强安全性。