jailbreak-detection

标签

Cards List
#jailbreak-detection

Gate AI:LLM安全基准评估方法与结果

arXiv cs.LG · 昨天 缓存

本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。

0 人收藏 0 人点赞
#jailbreak-detection

最后一个Token之前:诊断最终Token安全探针的故障

arXiv cs.LG · 2026-05-14 缓存

本文研究了最终Token安全探针在越狱提示上的失败,发现有害内容可以分布在较早的Token中,并被最终读取忽略。它提出了一种PCA-HMM轨迹模型作为诊断工具,该模型能够恢复许多遗漏,而不会产生简单Token池化的误报。

0 人收藏 0 人点赞
#jailbreak-detection

多代采样越狱检测在大语言模型中的实证研究

arXiv cs.CL · 2026-04-22 缓存

实证研究表明,多代采样显著提升大语言模型的越狱检测能力,能发现单次审计遗漏的隐藏有害输出。

0 人收藏 0 人点赞
#jailbreak-detection

TRIDENT:通过三维多样化红队数据合成增强大型语言模型安全性

arXiv cs.CL · 2026-04-20 缓存

TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈