geometric-blind-spot

#geometric-blind-spot

十年来的AI鲁棒性技巧（PGD、RLHF、数据增强）实际上都在计算同一个隐藏矩阵。我们证明了当它出错时会发生什么。

Reddit r/ArtificialInteligence ↗ · 2026-05-26

一篇研究论文证明，各种AI鲁棒性技术（PGD、RLHF、数据增强）都在估计同一个部署干扰协方差矩阵。应用一个几何惩罚项可将Qwen2.5-7B的谄媚行为从38.5%降至13.5%，并将对抗鲁棒性比标准PGD-AT提高14.8%。

0 人收藏 0 人点赞