十年来的AI鲁棒性技巧(PGD、RLHF、数据增强)实际上都在计算同一个隐藏矩阵。我们证明了当它出错时会发生什么。
摘要
一篇研究论文证明,各种AI鲁棒性技术(PGD、RLHF、数据增强)都在估计同一个部署干扰协方差矩阵。应用一个几何惩罚项可将Qwen2.5-7B的谄媚行为从38.5%降至13.5%,并将对抗鲁棒性比标准PGD-AT提高14.8%。
https://preview.redd.it/8pvzyj41qe3h1.png?width=870&format=png&auto=webp&s=b1c39577a1cb660484c9a6877919c4a9362a72d5 **TL;DR:** * 十年来,不同的研究社区(域自适应、对抗训练、LLM对齐)一直将各自的损失函数视为独立领域。 * 我们通过代数证明,它们都在试图估计同一个东西:**部署干扰协方差矩阵**(***Sigma\_{task}***)。 * **真正的结果:** 通过正确估计这个矩阵并应用一个几何惩罚项,我们将LLM在Qwen2.5-7B上的谄媚行为从38.5%降至13.5%,并比标准PGD对抗训练提升了14.8%。代码和论文见下文。 # 几何盲点 每次部署模型时,输入都会以不应影响标签的方式发生变化(光照变化、口音差异、提示风格演变)。论文的**定理G**证明了一件可怕的事情:如果你的正则化矩阵遗漏了真实世界数据变化的哪怕*一个*方向,模型就会主动利用这个盲点来最小化训练损失。你无法通过训练摆脱这一点。更多的数据、扩展到70B参数或加大正则化强度(***lambda***)都无法解决。如果几何结构错了,漂移下限就是永久的。 # 这在实际中有效吗? 是的。我使用完全相同的12行PyTorch代码在13个模块和5种模态上运行了它。以下是两个例子: **1. LLM对齐(修复谄媚行为):** 标准DPO使模型的隐藏状态对“风格”高度敏感。奖励模型在“这是正确的”和“这是用户想要的风格”之间混淆,导致谄媚行为。通过估计风格矩阵并添加我们的PMH损失,我们保留了几何结构。模型不再玩弄风格,谄媚行为从38.5%降至13.5%。 **2. 对抗训练(子空间阶梯):** 标准PGD对抗训练会破坏你的干净精度。我们在CIFAR-10 ViT上测试了我们的几何惩罚。通过匹配精确的PGD增量Gram矩阵,我们实现了对抗鲁棒性,同时将干净精度保持在79.4%(比标准PGD-AT高出近15个百分点)。 # 代码 一旦知道了矩阵,训练就只是一个公式(PMH损失): https://preview.redd.it/34h9qxappe3h1.png?width=689&format=png&auto=webp&s=2a513d188f218ad67568179c39ac739b21e92d54 我们将其打包,以便你可以将其插入任何架构。识别你的偏移,估计矩阵,然后添加这一项。 * **论文:** [https://arxiv.org/pdf/2605.22800v2](https://arxiv.org/pdf/2605.22800v2) * **GitHub(pip安装matching-pmh):** [https://github.com/vishalstark512/matching-pmh](https://github.com/vishalstark512/matching-pmh) 我很乐意与任何感兴趣的人讨论优化可达性的开放问题或LLM对齐的几何结构!
相似文章
OpenAI Blog
# 不同扰动类型之间对抗鲁棒性的迁移 来源: [https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/](https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/) OpenAI## 摘要 我们研究深度神经网络在不同扰动类型之间的对抗鲁棒性迁移。虽然大多数关于对抗样本的工作专注于L∞L\_∞和L2L\_2有界扰动,但这些并不能捕捉所有t
OpenAI Blog
OpenAI 提出证据表明,像 o1 这样的推理模型在获得更多推理时计算来进行更深入思考时,对对抗攻击的抵抗力会增强。这项研究表明,增加计算量可以降低多种任务类型(包括数学、事实性和对抗性图像)的攻击成功率,尽管仍存在一些显著的例外。
OpenAI Blog
# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能
OpenAI Blog
OpenAI 发布了一套管理AI模型网络能力的综合框架,指出在 CTF 性能上取得了显著进步(从 GPT-5 的 27% 提升到 GPT-5.1-Codex-Max 的 76%),并概述了纵深防御措施,以确保先进模型主要造福防御方,同时限制恶意使用。
arXiv cs.LG
本文通过引入与机制对齐的白盒攻击代理 WB-Softmax,研究了流式神经架构模糊 ARTMAP 中的对抗鲁棒性。本文评估了渐进式训练和选择性更新策略,以在不进行数据重放的情况下提高鲁棒性,同时为结构性失效提供可解释的诊断。