Arc Sentry 在对决基准中 92% 碾压 LLM Guard 的 70%,它是怎么做到的?
摘要
Arc Sentry 是一种全新的“生成前”提示注入检测器,直接读取模型内部残差流,在 130 条提示的基准上实现 92% 检出率、0% 误报;而 LLM Guard 仅 70% 检出率、3.3% 误报。
相似文章
大多数注入检测器逐条打分,我做了个追踪完整会话几何轨迹的,这是实测结果
开发者构建了 Arc Gate——一款基于 Fisher 信息流形几何的 LLM 监控代理,可在会话层面检测提示注入攻击,通过追踪 t 值相对相变阈值 t*=1.2247 的变化,识别 Crescendo 式渐进操控,而非逐句关键词匹配。
LLMSniffer:通过GraphCodeBERT和监督对比学习检测大模型生成代码
LLMSniffer是一个检测框架,通过监督对比学习微调GraphCodeBERT来区分AI生成的代码和人工编写的代码,在GPTSniffer和Whodunit基准测试上分别达到78%和94.65%的准确率。该方法通过结合代码结构感知嵌入、对比学习和注释移除预处理,解决了学术诚信和代码质量保证方面的关键挑战。
ASGuard:激活缩放防护以缓解针对性越狱攻击
ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。
Codex Security:现处于研究预览阶段
OpenAI 推出 Codex Security,这是一款现处于研究预览阶段的自主应用程序安全工具。它能高置信度识别复杂漏洞并提供可操作的修复方案,同时与传统的安全工具相比,显著减少误报和噪音。
为大语言模型辅助的生物威胁创建构建早期预警系统
# 为大语言模型辅助的生物威胁创建构建早期预警系统 来源:[https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/](https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/) *注:作为我们*[*预防性框架*](https://openai.com/preparedness/)*的一部分,我们正在投资开发改进的AI赋能型安全风险评估方法。我们相信这些努力*