十年来的AI鲁棒性技巧（PGD、RLHF、数据增强）实际上都在计算同一个隐藏矩阵。我们证明了当它出错时会发生什么。

Reddit r/ArtificialInteligence 2026/05/26 04:11 论文

robustness adversarial-training llm-alignment geometric-blind-spot covariance-matrix sycophancy theorem

摘要

一篇研究论文证明，各种AI鲁棒性技术（PGD、RLHF、数据增强）都在估计同一个部署干扰协方差矩阵。应用一个几何惩罚项可将Qwen2.5-7B的谄媚行为从38.5%降至13.5%，并将对抗鲁棒性比标准PGD-AT提高14.8%。

https://preview.redd.it/8pvzyj41qe3h1.png?width=870&format=png&auto=webp&s=b1c39577a1cb660484c9a6877919c4a9362a72d5 **TL;DR:** * 十年来，不同的研究社区（域自适应、对抗训练、LLM对齐）一直将各自的损失函数视为独立领域。 * 我们通过代数证明，它们都在试图估计同一个东西：**部署干扰协方差矩阵**（***Sigma\_{task}***）。 * **真正的结果：** 通过正确估计这个矩阵并应用一个几何惩罚项，我们将LLM在Qwen2.5-7B上的谄媚行为从38.5%降至13.5%，并比标准PGD对抗训练提升了14.8%。代码和论文见下文。 # 几何盲点每次部署模型时，输入都会以不应影响标签的方式发生变化（光照变化、口音差异、提示风格演变）。论文的**定理G**证明了一件可怕的事情：如果你的正则化矩阵遗漏了真实世界数据变化的哪怕*一个*方向，模型就会主动利用这个盲点来最小化训练损失。你无法通过训练摆脱这一点。更多的数据、扩展到70B参数或加大正则化强度（***lambda***）都无法解决。如果几何结构错了，漂移下限就是永久的。 # 这在实际中有效吗？是的。我使用完全相同的12行PyTorch代码在13个模块和5种模态上运行了它。以下是两个例子： **1. LLM对齐（修复谄媚行为）：** 标准DPO使模型的隐藏状态对“风格”高度敏感。奖励模型在“这是正确的”和“这是用户想要的风格”之间混淆，导致谄媚行为。通过估计风格矩阵并添加我们的PMH损失，我们保留了几何结构。模型不再玩弄风格，谄媚行为从38.5%降至13.5%。 **2. 对抗训练（子空间阶梯）：** 标准PGD对抗训练会破坏你的干净精度。我们在CIFAR-10 ViT上测试了我们的几何惩罚。通过匹配精确的PGD增量Gram矩阵，我们实现了对抗鲁棒性，同时将干净精度保持在79.4%（比标准PGD-AT高出近15个百分点）。 # 代码一旦知道了矩阵，训练就只是一个公式（PMH损失）： https://preview.redd.it/34h9qxappe3h1.png?width=689&format=png&auto=webp&s=2a513d188f218ad67568179c39ac739b21e92d54 我们将其打包，以便你可以将其插入任何架构。识别你的偏移，估计矩阵，然后添加这一项。 * **论文：** [https://arxiv.org/pdf/2605.22800v2](https://arxiv.org/pdf/2605.22800v2) * **GitHub（pip安装matching-pmh）：** [https://github.com/vishalstark512/matching-pmh](https://github.com/vishalstark512/matching-pmh) 我很乐意与任何感兴趣的人讨论优化可达性的开放问题或LLM对齐的几何结构！

查看原文

相似文章

不同扰动类型之间对抗鲁棒性的迁移

OpenAI Blog

# 不同扰动类型之间对抗鲁棒性的迁移来源: [https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/](https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/) OpenAI## 摘要我们研究深度神经网络在不同扰动类型之间的对抗鲁棒性迁移。虽然大多数关于对抗样本的工作专注于L∞L\_∞和L2L\_2有界扰动，但这些并不能捕捉所有t

十年来的AI鲁棒性技巧（PGD、RLHF、数据增强）实际上都在计算同一个隐藏矩阵。我们证明了当它出错时会发生什么。

相似文章

不同扰动类型之间对抗鲁棒性的迁移

用推理时计算换取对抗鲁棒性

测试对未知对手的鲁棒性

随着AI能力提升，强化网络防御能力

模糊 ARTMAP 中的流式对抗鲁棒性：机制对齐评估、渐进式训练及可解释诊断

提交意见反馈