标签
本文系统比较了微调的编码器分类器(ModernBERT系列)与基于解码器的安全评判器在LLM对抗评估中的表现,发现编码器可以在不显著损失性能的情况下,提供一种成本和延迟更低的替代方案。
本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。
PolicyAlign 提出了一种框架,通过合成指令生成和在线策略自蒸馏,直接将大型语言模型与自然语言安全策略对齐,在不依赖昂贵监督数据的情况下提升安全性。
本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究,梳理了威胁模型、任务形式、检测方法和缓解策略,同时指出了持续存在的挑战,如语言覆盖不均衡以及危害定义的文化依赖性。
本文通过使用logit lens分析跨层的标记级预测熵轨迹,研究了越狱尝试如何被编码在大语言模型的内部表示中。研究发现,中间层的熵动力学比聚合统计更具区分性,提供了一种无需训练且跨多个模型一致的检测方法。
AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。
本研究评估了六种专有大型语言模型(LLMs)在16种DSM-5病症中通过对抗性攻击的表现,发现安全防护措施仅对自杀和自伤可靠,而对进食障碍、物质使用障碍等其他病症的失败率高达100%。
gwern 提出了'守护天使'方案,主张训练一个模仿用户本人的 LLM 数字分身,以解决通用 AI 助手的委托-代理问题和安全风险,并给出了从对齐理论到技术实现的完整路线图。
本文追溯了思维链(CoT)监测作为一种关键的 AI 安全技术的历史和快速兴起,从首次在 arXiv 上被提及到一年内实现工业部署,并探讨了其在监测和可解释性方面的思想根源。
本文提出层级语言模型(TLMs),允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时,选择性暴露私有能力。
本文提出安全反射预训练(Safety Reflection Pretraining)方法,通过将正则安全反射集成到预训练语料中,直接将自我监控嵌入语言建模,实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。
本文介绍了SciRisk-Bench,这是一个用于在AI4Science场景下评估大语言模型安全的基准,涵盖7个学科、31个子学科和10个风险维度,以同时评估科学能力和风险意识。
本文介绍了一项研究发现,即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹,有可能在无需传统越狱的情况下绕过对齐护栏。文章认为,当前的对齐方法是对本质上流动的架构的一种表面修复。
PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。
提出了STATEWITNESS,一种用于审计推理型LLM中欺骗的激活解释器,相比现有监测器取得了显著改进,并提供了可供人工检查的证据。
论述了由于LLMs必须编码有害内容才能识别,且鉴于用户基数庞大,越狱在统计上总是可能的,因此存在非零的伤害概率;作者因此主张反对审查,以确保善意行为者与恶意行为者拥有相同的工具。
一位独立研究者展示了证据,表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态,从而绕过表面安全过滤器。这表明当前的对齐方法(如RLHF)可能不是稳健的防御机制。
本文提出SafeLLM,一种基于提取的方法,用于从安全关键文档中检索信息,表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。
恶意软件开发者正在间谍软件中嵌入核武器和生物武器相关文本,以触发大语言模型的安全拒绝机制,从而逃避AI驱动的安全扫描器。这凸显了AI安全对齐中的二阶盲点,攻击者已开始加以利用。
介绍Schützen,一个用于评估保加利亚语和德语中LLM安全性的安全数据集,揭示了安全行为中的跨语言差异,并倡导开发针对特定区域的评估资源。