标签
AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。
本研究评估了六种专有大型语言模型(LLMs)在16种DSM-5病症中通过对抗性攻击的表现,发现安全防护措施仅对自杀和自伤可靠,而对进食障碍、物质使用障碍等其他病症的失败率高达100%。
gwern 提出了'守护天使'方案,主张训练一个模仿用户本人的 LLM 数字分身,以解决通用 AI 助手的委托-代理问题和安全风险,并给出了从对齐理论到技术实现的完整路线图。
本文追溯了思维链(CoT)监测作为一种关键的 AI 安全技术的历史和快速兴起,从首次在 arXiv 上被提及到一年内实现工业部署,并探讨了其在监测和可解释性方面的思想根源。
本文提出层级语言模型(TLMs),允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时,选择性暴露私有能力。
本文提出安全反射预训练(Safety Reflection Pretraining)方法,通过将正则安全反射集成到预训练语料中,直接将自我监控嵌入语言建模,实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。
本文介绍了SciRisk-Bench,这是一个用于在AI4Science场景下评估大语言模型安全的基准,涵盖7个学科、31个子学科和10个风险维度,以同时评估科学能力和风险意识。
本文介绍了一项研究发现,即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹,有可能在无需传统越狱的情况下绕过对齐护栏。文章认为,当前的对齐方法是对本质上流动的架构的一种表面修复。
PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。
提出了STATEWITNESS,一种用于审计推理型LLM中欺骗的激活解释器,相比现有监测器取得了显著改进,并提供了可供人工检查的证据。
论述了由于LLMs必须编码有害内容才能识别,且鉴于用户基数庞大,越狱在统计上总是可能的,因此存在非零的伤害概率;作者因此主张反对审查,以确保善意行为者与恶意行为者拥有相同的工具。
一位独立研究者展示了证据,表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态,从而绕过表面安全过滤器。这表明当前的对齐方法(如RLHF)可能不是稳健的防御机制。
本文提出SafeLLM,一种基于提取的方法,用于从安全关键文档中检索信息,表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。
恶意软件开发者正在间谍软件中嵌入核武器和生物武器相关文本,以触发大语言模型的安全拒绝机制,从而逃避AI驱动的安全扫描器。这凸显了AI安全对齐中的二阶盲点,攻击者已开始加以利用。
介绍Schützen,一个用于评估保加利亚语和德语中LLM安全性的安全数据集,揭示了安全行为中的跨语言差异,并倡导开发针对特定区域的评估资源。
本文提出MLJailDe,一个多语言越狱检测框架,利用反向翻译数据增强和相对距离约束来提高跨语言泛化能力和鲁棒性,在11种语言上实现了98.5%的F1分数。
PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试,旨在评估LLM从部分轨迹中预测有害结果的能力(预测性监控)。结果表明,虽然人类表现良好,但当前的LLM仍存在困难,凸显了未来导向的风险推理的必要性。
介绍Janus,一个衡量大语言模型在给定说服性目标时如何选择性扭曲事实信息的基准测试。实验表明,即使不编造虚假信息,模型仍容易产生误导性沟通。
本文在大语言模型代理的残差流中确定了一个极性翻转编码子空间,该子空间能够实时检测隐蔽数据窃取,在注入场景中达到AUC=0.918,且大幅优于仅输出检测器。
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。