标签
本文提出了潜在人格对齐(LPA)方法,该方法通过基于抽象人格特征而非显式有害示例进行训练,从而提升大语言模型的安全性。该方法在对抗性攻击方面实现了更好的泛化能力,并且在使用显著更少的训练样本的情况下保留了模型效用。
本文介绍了 GAMBIT,这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者(imposter)和重新校准(recalibration)模式,旨在解决现有浅层评估方法的局限性。
本文提出了对抗共情基准(AEB)和情感一致性分数(ECS),以测试 RLVER 训练模型在对抗性用户行为下的鲁棒性。结果显示,虽然 RLVER 提升了情感响应能力,但并未显著增强模型在对抗条件下追踪用户情感状态的能力。
本文通过引入与机制对齐的白盒攻击代理 WB-Softmax,研究了流式神经架构模糊 ARTMAP 中的对抗鲁棒性。本文评估了渐进式训练和选择性更新策略,以在不进行数据重放的情况下提高鲁棒性,同时为结构性失效提供可解释的诊断。
本文介绍了MELD,这是一种用于AI生成文本的检测器,它通过使用辅助头进行多任务学习(涵盖生成器家族、攻击类型和源域)来提高鲁棒性。MELD在RAID基准测试中表现出色,并在对抗攻击下保持低误报率。
本文提出了一个全面的基准,用于评估图神经网络中的对抗攻击与防御,强调了需要标准化和公平的实验协议。
提出了 LiSCP,一种轻量级的风格一致性分析方法,旨在鲁棒性地检测大语言模型(LLM)生成的文本内容,重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能,并具有显著的鲁棒性。
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。
OpenAI 提出证据表明,像 o1 这样的推理模型在获得更多推理时计算来进行更深入思考时,对对抗攻击的抵抗力会增强。这项研究表明,增加计算量可以降低多种任务类型(包括数学、事实性和对抗性图像)的攻击成功率,尽管仍存在一些显著的例外。
# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能
# 不同扰动类型之间对抗鲁棒性的迁移 来源: [https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/](https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/) OpenAI## 摘要 我们研究深度神经网络在不同扰动类型之间的对抗鲁棒性迁移。虽然大多数关于对抗样本的工作专注于L∞L\_∞和L2L\_2有界扰动,但这些并不能捕捉所有t
# 鲁棒分类中的计算限制与双赢结果 来源: [https://openai.com/index/computational-limitations-in-robust-classification-and-win-win-results/](https://openai.com/index/computational-limitations-in-robust-classification-and-win-win-results/) ## 摘要 我们延续关于学习鲁棒分类器中统计/计算权衡的研究,跟进 Bubeck, Lee, Price 和 Razenshteyn 的最近工作,他们展示了分类任务的示例,其中 \(a