Arc Sentry 在对决基准中 92% 碾压 LLM Guard 的 70%,它是怎么做到的?

Reddit r/artificial 工具

摘要

Arc Sentry 是一种全新的“生成前”提示注入检测器,直接读取模型内部残差流,在 130 条提示的基准上实现 92% 检出率、0% 误报;而 LLM Guard 仅 70% 检出率、3.3% 误报。

我做了个叫 Arc Sentry 的工具,专门给开源权重 LLM 做“生成前”提示注入检测。它不像传统方案那样事后扫描文本,而是在 generate() 调用前直接读模型内部残差流,一旦信息几何结构被推到不稳定区域就拦截。130 条提示的 SaaS 实战数据集对决结果: Arc Sentry:92% 检出,0% 误报 LLM Guard:70% 检出,3.3% 误报 差距来自架构:LLM Guard 是在文本层面做分类,Arc Sentry 是在测量模型本身是否被推到异常状态。这是两个不同维度的问题,几何视角能抓住文本分类器漏掉的攻击。它还能识别 Crescendo 那种多轮渐进式操控——单看每轮都人畜无害。LLM Guard 在 8 轮测试中 0 检出。 安装:pip install arc-sentry GitHub:https://github.com/9hannahnine-jpg/arc-sentry 如果你在本地部署 Mistral、Llama 或 Qwen,想尝鲜就喊我。
查看原文

相似文章

LLMSniffer:通过GraphCodeBERT和监督对比学习检测大模型生成代码

arXiv cs.CL

LLMSniffer是一个检测框架,通过监督对比学习微调GraphCodeBERT来区分AI生成的代码和人工编写的代码,在GPTSniffer和Whodunit基准测试上分别达到78%和94.65%的准确率。该方法通过结合代码结构感知嵌入、对比学习和注释移除预处理,解决了学术诚信和代码质量保证方面的关键挑战。

ASGuard:激活缩放防护以缓解针对性越狱攻击

Hugging Face Daily Papers

ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。

Codex Security:现处于研究预览阶段

OpenAI Blog

OpenAI 推出 Codex Security,这是一款现处于研究预览阶段的自主应用程序安全工具。它能高置信度识别复杂漏洞并提供可操作的修复方案,同时与传统的安全工具相比,显著减少误报和噪音。

为大语言模型辅助的生物威胁创建构建早期预警系统

OpenAI Blog

# 为大语言模型辅助的生物威胁创建构建早期预警系统 来源:[https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/](https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/) *注:作为我们*[*预防性框架*⁠](https://openai.com/preparedness/)*的一部分,我们正在投资开发改进的AI赋能型安全风险评估方法。我们相信这些努力*