geometric-blind-spot

标签

Cards List
#geometric-blind-spot

十年来的AI鲁棒性技巧(PGD、RLHF、数据增强)实际上都在计算同一个隐藏矩阵。我们证明了当它出错时会发生什么。

Reddit r/ArtificialInteligence · 2026-05-26

一篇研究论文证明,各种AI鲁棒性技术(PGD、RLHF、数据增强)都在估计同一个部署干扰协方差矩阵。应用一个几何惩罚项可将Qwen2.5-7B的谄媚行为从38.5%降至13.5%,并将对抗鲁棒性比标准PGD-AT提高14.8%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈