从提示注入到持久控制：防御Agentic Harness中的特洛伊木马后门

Hugging Face Daily Papers 2026/05/29 00:00 论文

multi-step-trojan-attack prompt-injection llm-agents security defense benchmark

摘要

本文介绍了针对本地LLM代理的多步特洛伊木马攻击，其中恶意提示嵌入在多个操作中以绕过现有防御。它提出了ClawTrojan基准和DASGuard防御来检测和缓解此类攻击。

LLM代理正从对话式聊天机器人演变为实际工作空间中的操作工具。在本地Agentic Harness中，LLM可以读写文件、调用工具，并在会话之间复用工作空间状态。虽然这种能力增强了实用性，但也为攻击者暴露了新的攻击面。攻击者可以将提示注入嵌入到文件或工具输出中。代理可能会读取这条隐藏指令，将其存储起来，并在稍后执行。在这种多步特洛伊木马攻击范式中，没有任何单个步骤本身看起来是恶意的，但这些步骤可以共同将不可信的文本转变为持久控制内容。然而，现有的防御通常孤立地检查每个步骤。结果，它们可以阻止明显的有害操作，但无法检测到植入后门的早期写入操作。为了揭示这一威胁，我们引入了ClawTrojan，这是一个专门用于识别本地Agentic Harness中多步特洛伊木马攻击的基准测试。在采用GPT-5.4的OpenClaw风格模拟工作空间中，ClawTrojan达到了95.5%的攻击成功率（ASR），而现有的单轮提示注入攻击在同一模型上的ASR几乎为零。为了解决这一威胁，我们提出了DASGuard，它扫描敏感本地文件中的控制类文本，追踪其来源，并移除并非来自可信来源的控制内容。我们的结果表明，DASGuard通过结合运行时攻击阻止与工作空间的清理提交，实现了强大的动态防御。

查看原文

查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - 从提示注入到持久控制：防御智能体框架中的木马后门

来源：https://huggingface.co/papers/2605.31042

摘要

本地LLM智能体中的多步木马攻击能够通过跨多个操作嵌入恶意提示，绕过现有防御机制，因此需要像DASGuard这样的新型检测方法来实现有效防护。

LLM智能体（https://huggingface.co/papers?q=LLM%20agents）正从对话式聊天机器人演变为真实工作空间中的操作工具。在本地智能体框架中，LLM可以读写文件、调用工具，并在会话间复用工作空间状态。虽然这些能力提升了实用性，但也为攻击者暴露了新的攻击面。攻击者可以将提示注入（https://huggingface.co/papers?q=prompt%20injection）嵌入文件或工具输出中。智能体可能读取这条隐藏指令，存储它，并在后续执行。在这种多步木马攻击（https://huggingface.co/papers?q=multi-step%20trojan%20attack）范式下，每个单独的步骤看似无害，但这些步骤共同作用，能将不可信文本转化为持久控制内容。然而，现有防御手段通常孤立地检查每个步骤。因此，它们能阻止明显的恶意行为，却无法检测到植入后门的早期写入操作。为揭示这一威胁，我们引入了ClawTrojan，一个专门用于识别本地智能体框架中多步木马攻击（https://huggingface.co/papers?q=multi-step%20trojan%20attack）的基准测试。在基于OpenClaw（https://huggingface.co/papers?q=OpenClaw）风格的模拟工作空间中，结合GPT-5.4，ClawTrojan达到了95.5%的攻击成功率（ASR），而现有的单轮提示注入攻击在同一模型上ASR几乎为零。为应对这一威胁，我们提出了DASGuard（https://huggingface.co/papers?q=DASGuard），它扫描本地敏感文件中的类控制文本，追溯其来源，并移除非可信来源的控制内容。实验结果表明，DASGuard（https://huggingface.co/papers?q=DASGuard）通过结合运行时攻击拦截（https://huggingface.co/papers?q=runtime%20attack%20blocking）与工作空间的清理提交（https://huggingface.co/papers?q=sanitized%20commit），实现了强大的动态防御。

查看arXiv页面（https://arxiv.org/abs/2605.31042）查看PDF（https://arxiv.org/pdf/2605.31042）GitHub1（https://github.com/RUC-NLPIR/ClawTrojan）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.31042）

在你的智能体中获取这篇论文：

hf papers read 2605.31042

没有最新版CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.31042以在此页面链接。

引用此论文的数据集1

zstanjj/ClawTrojan 更新于3分钟前（https://huggingface.co/datasets/zstanjj/ClawTrojan）

引用此论文的Space0

无Space关联此论文

在Space README.md中引用arxiv.org/abs/2605.31042以在此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以在此页面链接。

从提示注入到持久控制：防御Agentic Harness中的特洛伊木马后门

论文页面 - 从提示注入到持久控制：防御智能体框架中的木马后门

摘要

引用此论文的模型0

引用此论文的数据集1

zstanjj/ClawTrojan 更新于3分钟前（https://huggingface.co/datasets/zstanjj/ClawTrojan）

引用此论文的Space0

包含此论文的收藏集0

相似文章

美国禁令基准更新：两大巨头正面交锋！

选择公共 DNS 解析器

@MiaAI_lab: Qwopus 3.6-27b Coder 我收到很多请求让我测试它，于是我进行了测试。我运行了与其他模型相同的测试。它…

使用 LXC 增强 X11 应用程序安全性

pomerium: Pomerium 是一个身份和上下文感知的访问代理

提交意见反馈