标签
GRAPE是一种训练框架,在对抗训练过程中逐步暴露参数空间,与CIFAR-10上的固定结构方法相比,能够以更少的参数实现更高的鲁棒精度。
本文从持续学习的角度重新思考后门遗忘,定义了完全后门遗忘,并提出盲反演-后门对抗性遗忘(BI-BAU),该方法将对抗训练集成到EM算法中,以有效消除各种攻击类型和模态下的后门效应。
这个帖子介绍了一种技术,可以在训练过程中利用自然语言文本将功能完整的QR码编码到神经网络的权重中,从而在基于良性数据训练的模型中嵌入隐藏信息。
本文提出SDBN,一种将对抗训练与参数高效微调相结合的框架,旨在提升基础模型在噪声和有限数据下的鲁棒性,并在低资源场景中展现出显著改进。
CHASE 提出了一种共同进化的红蓝对抗框架,利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力,在基准测试中将越狱成功率降低43.2%,同时在对良性提示的误拒率保持为零。
一篇研究论文证明,各种AI鲁棒性技术(PGD、RLHF、数据增强)都在估计同一个部署干扰协方差矩阵。应用一个几何惩罚项可将Qwen2.5-7B的谄媚行为从38.5%降至13.5%,并将对抗鲁棒性比标准PGD-AT提高14.8%。
本文介绍了ASAM(面向多模态知识编辑的对抗性子空间对齐),该方法通过生成对抗但语义一致的变体,并强制对表示进行低秩对齐,提升了内在多模态知识编辑的泛化性,解决了现有方法泛化能力有限的问题。
介绍了一种优先遗憾驱动优化框架PROWL,该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性,在MineRL中的分布外场景上取得了更好的性能。
作者使用强化学习训练Qwen3.5自我越狱,通过多样性奖励暴露多种攻击策略,随后将防御方的鲁棒性从64%提升至92%,同时良性准确率略有下降。
本文提出了一种针对生物医学出版物类型和研究设计分类的鲁棒评估框架及训练策略,利用知识引导的扰动来降低模型对虚假特征的依赖。
本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。
本文介绍了 WARDEN,一种用于大型语言模型的分布鲁棒对抗训练框架。该框架利用 f-散度动态调整对抗样本的权重,在显著降低攻击成功率的同时保持了计算效率。
OpenAI宣布通过对抗训练和强化防护措施,持续加固ChatGPT Atlas以抵御提示注入攻击,包括建立快速响应循环,在新型攻击策略出现于实际环境前即发现并缓解。
本文提出了针对文本分类的对抗训练和虚拟对抗训练方法,通过在RNN中对词嵌入而非原始输入施加扰动来实现。该方法在半监督和监督文本分类基准上取得了最先进的结果,同时降低了过拟合。