SCOUT先行:提示注入防御中自适应检测器分配的预推理

Hugging Face Daily Papers 论文

摘要

介绍SCOUT,一个通过预测可靠性和延迟来动态分配每个请求的提示注入检测器的框架,提高了安全性和效率。同时提出SCOUT-450,一个针对复杂面向代理的注入的基准测试,与固定的GPT-4o判断器相比,攻击成功率降低46%,延迟降低40%。

提示注入检测器是异构的:每个检测器在不同类型的攻击上表现强劲,但没有一个始终可靠。然而,现有系统仍然将检测视为固定的单检测器流水线,将每个请求都交给一个检测器的盲区。我们将防御重新定义为检测器分配:给定一个异构池,为每个请求决定运行哪些检测器以及是否升级到LLM判断器。我们的框架SCOUT(可扩展且可控的不确定感知分诊结果预测)通过预测每个检测器在类似历史输入上的每样本可靠性和延迟来动态做出这一决策,并向操作员暴露一个单一的安全-效用阈值(其中效用包含良性通过率和实际时间)。为了评估这一设置,我们构建了SCOUT-450,一个捕捉结构化复杂、面向代理的注入的基准测试,这些注入在较旧的提示注入集中代表性不足。在SCOUT-450上,一个以安全为导向的操作点将攻击成功率降低46%,总耗时降低40%,与始终开启的GPT-4o判断器相比,同时良性效用下降5.1个百分点。SCOUT还迁移到三个外部基准测试(BIPIA、IPI和IHEval),改善了安全-效用边界。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:08

论文页面 - 先派出SCOUT:提示注入防御中自适应检测器分配的预推理

来源:https://huggingface.co/papers/2605.30837

摘要

SCOUT框架通过预测检测器的可靠性和延迟,动态分配提示注入检测,相比固定的单一检测器方法,提升了安全性和效率。

提示注入检测器(https://huggingface.co/papers?q=Prompt-injection%20detectors)具有异构性:每个检测器在不同攻击类型上表现各异,没有哪个检测器始终可靠。然而,现有系统仍将检测视为固定的单一检测器管道,将所有请求交由同一检测器的盲区处理。我们重新将防御定义为检测器分配(https://huggingface.co/papers?q=detector%20allocation):面对异构检测器池,针对每个请求决定运行哪些检测器,以及是否升级到LLM评审。我们的框架SCOUT(https://huggingface.co/papers?q=SCOUT)(可扩展与可控的面向不确定性分诊的结果预测(https://huggingface.co/papers?q=Uncertainty-aware%20Triage))通过预测每个检测器在相似历史输入上的逐样本可靠性和延迟,实现了动态决策,并向操作员暴露一个单一的安全-效用阈值(https://huggingface.co/papers?q=safety-utility%20threshold)(其中效用综合了良性通过率(https://huggingface.co/papers?q=benign-pass%20rate)和实际耗时(https://huggingface.co/papers?q=wall-clock))。为评估这一设定,我们构建了SCOUT-450(https://huggingface.co/papers?q=SCOUT-450)基准,该基准包含了结构复杂、面向智能体的注入,这些注入在旧版提示注入集中代表性不足。在SCOUT-450(https://huggingface.co/papers?q=SCOUT-450)上,一个面向安全的工作点将攻击成功率(https://huggingface.co/papers?q=attack-success%20rate)降低了46%,总实际耗时(https://huggingface.co/papers?q=wall-clock)相比始终开启的GPT-4o评审(https://huggingface.co/papers?q=GPT-4o%20judge)降低了40%,而良性效用仅下降5.1分。SCOUT(https://huggingface.co/papers?q=SCOUT)同样适用于三个外部基准(BIPIA(https://huggingface.co/papers?q=BIPIA)、IPI(https://huggingface.co/papers?q=IPI)和IHEval(https://huggingface.co/papers?q=IHEval)),改进了安全-效用前沿。

查看arXiv页面(https://arxiv.org/abs/2605.30837)查看PDF(https://arxiv.org/pdf/2605.30837)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30837)

在您的智能体中获取该论文:

hf papers read 2605.30837

没有最新版CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

无模型链接该论文

请在一个模型README.md中引用arxiv.org/abs/2605.30837以从该页面链接。

引用该论文的数据集0

无数据集链接该论文

请在一个数据集README.md中引用arxiv.org/abs/2605.30837以从该页面链接。

引用该论文的Space0

无Space链接该论文

请在一个Space README.md中引用arxiv.org/abs/2605.30837以从该页面链接。

包含该论文的收藏1

相似文章

理解提示词注入:AI安全的前沿挑战

OpenAI Blog

OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。

设计能抵抗提示词注入的AI智能体

OpenAI Blog

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。