Arc Sentry 在对决基准中 92% 碾压 LLM Guard 的 70%，它是怎么做到的？

Reddit r/artificial 2026/04/23 04:02 工具

摘要

Arc Sentry 是一种全新的“生成前”提示注入检测器，直接读取模型内部残差流，在 130 条提示的基准上实现 92% 检出率、0% 误报；而 LLM Guard 仅 70% 检出率、3.3% 误报。

我做了个叫 Arc Sentry 的工具，专门给开源权重 LLM 做“生成前”提示注入检测。它不像传统方案那样事后扫描文本，而是在 generate() 调用前直接读模型内部残差流，一旦信息几何结构被推到不稳定区域就拦截。130 条提示的 SaaS 实战数据集对决结果： Arc Sentry：92% 检出，0% 误报 LLM Guard：70% 检出，3.3% 误报差距来自架构：LLM Guard 是在文本层面做分类，Arc Sentry 是在测量模型本身是否被推到异常状态。这是两个不同维度的问题，几何视角能抓住文本分类器漏掉的攻击。它还能识别 Crescendo 那种多轮渐进式操控——单看每轮都人畜无害。LLM Guard 在 8 轮测试中 0 检出。安装：pip install arc-sentry GitHub：https://github.com/9hannahnine-jpg/arc-sentry 如果你在本地部署 Mistral、Llama 或 Qwen，想尝鲜就喊我。

查看原文

相似文章

大多数注入检测器逐条打分，我做了个追踪完整会话几何轨迹的，这是实测结果

Reddit r/artificial

开发者构建了 Arc Gate——一款基于 Fisher 信息流形几何的 LLM 监控代理，可在会话层面检测提示注入攻击，通过追踪 t 值相对相变阈值 t*=1.2247 的变化，识别 Crescendo 式渐进操控，而非逐句关键词匹配。

LLMSniffer：通过GraphCodeBERT和监督对比学习检测大模型生成代码

arXiv cs.CL

LLMSniffer是一个检测框架，通过监督对比学习微调GraphCodeBERT来区分AI生成的代码和人工编写的代码，在GPTSniffer和Whodunit基准测试上分别达到78%和94.65%的准确率。该方法通过结合代码结构感知嵌入、对比学习和注释移除预处理，解决了学术诚信和代码质量保证方面的关键挑战。

ASGuard：激活缩放防护以缓解针对性越狱攻击

Hugging Face Daily Papers

ASGuard是一种基于机制的防御框架，通过电路分析识别脆弱的注意力头，并应用有针对性的激活缩放和微调，在保持模型能力的同时提高拒绝行为的鲁棒性，从而缓解针对LLM的越狱攻击。

Codex Security：现处于研究预览阶段

OpenAI Blog

OpenAI 推出 Codex Security，这是一款现处于研究预览阶段的自主应用程序安全工具。它能高置信度识别复杂漏洞并提供可操作的修复方案，同时与传统的安全工具相比，显著减少误报和噪音。

为大语言模型辅助的生物威胁创建构建早期预警系统