jailbreak-detection

#jailbreak-detection

中间层知道什么：从熵动力学检测越狱攻击

arXiv cs.CL ↗ · 2026-06-25 缓存

本文通过使用logit lens分析跨层的标记级预测熵轨迹，研究了越狱尝试如何被编码在大语言模型的内部表示中。研究发现，中间层的熵动力学比聚合统计更具区分性，提供了一种无需训练且跨多个模型一致的检测方法。

0 人收藏 0 人点赞

#jailbreak-detection

arXiv cs.CL ↗ · 2026-06-11 缓存

本文提出MLJailDe，一个多语言越狱检测框架，利用反向翻译数据增强和相对距离约束来提高跨语言泛化能力和鲁棒性，在11种语言上实现了98.5%的F1分数。

0 人收藏 0 人点赞

#jailbreak-detection

arXiv cs.LG ↗ · 2026-06-03 缓存

本文提出了一种针对LLM安全检测器的评估方法，旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证，选取单一全局操作点，并包含多项泛化能力诊断指标。

0 人收藏 0 人点赞

#jailbreak-detection

arXiv cs.LG ↗ · 2026-05-14 缓存

本文研究了最终Token安全探针在越狱提示上的失败，发现有害内容可以分布在较早的Token中，并被最终读取忽略。它提出了一种PCA-HMM轨迹模型作为诊断工具，该模型能够恢复许多遗漏，而不会产生简单Token池化的误报。

0 人收藏 0 人点赞

#jailbreak-detection

arXiv cs.CL ↗ · 2026-04-22 缓存

实证研究表明，多代采样显著提升大语言模型的越狱检测能力，能发现单次审计遗漏的隐藏有害输出。

0 人收藏 0 人点赞

#jailbreak-detection

arXiv cs.CL ↗ · 2026-04-20 缓存

TRIDENT是一个新颖的框架和数据集合成管道，用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比，危害分数降低14.29%，攻击成功率下降20%。

0 人收藏 0 人点赞