SCOUT先行:提示注入防御中自适应检测器分配的预推理
摘要
介绍SCOUT,一个通过预测可靠性和延迟来动态分配每个请求的提示注入检测器的框架,提高了安全性和效率。同时提出SCOUT-450,一个针对复杂面向代理的注入的基准测试,与固定的GPT-4o判断器相比,攻击成功率降低46%,延迟降低40%。
查看缓存全文
缓存时间: 2026/06/10 00:08
论文页面 - 先派出SCOUT:提示注入防御中自适应检测器分配的预推理
来源:https://huggingface.co/papers/2605.30837
摘要
SCOUT框架通过预测检测器的可靠性和延迟,动态分配提示注入检测,相比固定的单一检测器方法,提升了安全性和效率。
提示注入检测器(https://huggingface.co/papers?q=Prompt-injection%20detectors)具有异构性:每个检测器在不同攻击类型上表现各异,没有哪个检测器始终可靠。然而,现有系统仍将检测视为固定的单一检测器管道,将所有请求交由同一检测器的盲区处理。我们重新将防御定义为检测器分配(https://huggingface.co/papers?q=detector%20allocation):面对异构检测器池,针对每个请求决定运行哪些检测器,以及是否升级到LLM评审。我们的框架SCOUT(https://huggingface.co/papers?q=SCOUT)(可扩展与可控的面向不确定性分诊的结果预测(https://huggingface.co/papers?q=Uncertainty-aware%20Triage))通过预测每个检测器在相似历史输入上的逐样本可靠性和延迟,实现了动态决策,并向操作员暴露一个单一的安全-效用阈值(https://huggingface.co/papers?q=safety-utility%20threshold)(其中效用综合了良性通过率(https://huggingface.co/papers?q=benign-pass%20rate)和实际耗时(https://huggingface.co/papers?q=wall-clock))。为评估这一设定,我们构建了SCOUT-450(https://huggingface.co/papers?q=SCOUT-450)基准,该基准包含了结构复杂、面向智能体的注入,这些注入在旧版提示注入集中代表性不足。在SCOUT-450(https://huggingface.co/papers?q=SCOUT-450)上,一个面向安全的工作点将攻击成功率(https://huggingface.co/papers?q=attack-success%20rate)降低了46%,总实际耗时(https://huggingface.co/papers?q=wall-clock)相比始终开启的GPT-4o评审(https://huggingface.co/papers?q=GPT-4o%20judge)降低了40%,而良性效用仅下降5.1分。SCOUT(https://huggingface.co/papers?q=SCOUT)同样适用于三个外部基准(BIPIA(https://huggingface.co/papers?q=BIPIA)、IPI(https://huggingface.co/papers?q=IPI)和IHEval(https://huggingface.co/papers?q=IHEval)),改进了安全-效用前沿。
查看arXiv页面(https://arxiv.org/abs/2605.30837)查看PDF(https://arxiv.org/pdf/2605.30837)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30837)
在您的智能体中获取该论文:
hf papers read 2605.30837
没有最新版CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
无模型链接该论文
请在一个模型README.md中引用arxiv.org/abs/2605.30837以从该页面链接。
引用该论文的数据集0
无数据集链接该论文
请在一个数据集README.md中引用arxiv.org/abs/2605.30837以从该页面链接。
引用该论文的Space0
无Space链接该论文
请在一个Space README.md中引用arxiv.org/abs/2605.30837以从该页面链接。
包含该论文的收藏1
相似文章
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。
大多数注入检测器逐条打分,我做了个追踪完整会话几何轨迹的,这是实测结果
开发者构建了 Arc Gate——一款基于 Fisher 信息流形几何的 LLM 监控代理,可在会话层面检测提示注入攻击,通过追踪 t 值相对相变阈值 t*=1.2247 的变化,识别 Crescendo 式渐进操控,而非逐句关键词匹配。
具有审计功能的智能体执行引擎,解决提示注入问题
该工具基于纯数学和确定性构建,用于解决间接提示注入和智能体漂移,提供纯审计追踪链。创建者正在寻找试点兴趣。
设计能抵抗提示词注入的AI智能体
OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。
使用 ml-intern 和 DeepSeek v4 Flash 训练了一个提示注入检测器,运行在浏览器中
使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。