adversarial-training

#adversarial-training

GRAPE：面向紧凑型对抗鲁棒性的引导式参数空间演化

arXiv cs.LG ↗ · 2026-06-16 缓存

GRAPE是一种训练框架，在对抗训练过程中逐步暴露参数空间，与CIFAR-10上的固定结构方法相比，能够以更少的参数实现更高的鲁棒精度。

0 人收藏 0 人点赞

#adversarial-training

从持续学习中的灾难性遗忘角度重新思考后门对抗性遗忘

arXiv cs.LG ↗ · 2026-06-15 缓存

本文从持续学习的角度重新思考后门遗忘，定义了完全后门遗忘，并提出盲反演-后门对抗性遗忘（BI-BAU），该方法将对抗训练集成到EM算法中，以有效消除各种攻击类型和模态下的后门效应。

0 人收藏 0 人点赞

#adversarial-training

@che_shr_cat: 1/ 如果你能在完全看似无害的维基百科文章上训练模型，但秘密地迫使它的内部权重…

X AI KOLs Following ↗ · 2026-06-14 缓存

这个帖子介绍了一种技术，可以在训练过程中利用自然语言文本将功能完整的QR码编码到神经网络的权重中，从而在基于良性数据训练的模型中嵌入隐藏信息。

0 人收藏 0 人点赞

#adversarial-training

小数据，大噪声：面向鲁棒参数高效微调的对抗训练

arXiv cs.CL ↗ · 2026-06-10 缓存

本文提出SDBN，一种将对抗训练与参数高效微调相结合的框架，旨在提升基础模型在噪声和有限数据下的鲁棒性，并在低资源场景中展现出显著改进。

0 人收藏 0 人点赞

#adversarial-training

CHASE：基于强化学习的对抗性红蓝对抗提升大语言模型安全性

arXiv cs.CL ↗ · 2026-06-05 缓存

CHASE 提出了一种共同进化的红蓝对抗框架，利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力，在基准测试中将越狱成功率降低43.2%，同时在对良性提示的误拒率保持为零。

0 人收藏 0 人点赞

#adversarial-training

十年来的AI鲁棒性技巧（PGD、RLHF、数据增强）实际上都在计算同一个隐藏矩阵。我们证明了当它出错时会发生什么。

Reddit r/ArtificialInteligence ↗ · 2026-05-26

一篇研究论文证明，各种AI鲁棒性技术（PGD、RLHF、数据增强）都在估计同一个部署干扰协方差矩阵。应用一个几何惩罚项可将Qwen2.5-7B的谄媚行为从38.5%降至13.5%，并将对抗鲁棒性比标准PGD-AT提高14.8%。

0 人收藏 0 人点赞

#adversarial-training

超越二元编辑：基于对抗性子空间对齐的鲁棒多模态知识编辑

arXiv cs.AI ↗ · 2026-05-25 缓存

本文介绍了ASAM（面向多模态知识编辑的对抗性子空间对齐），该方法通过生成对抗但语义一致的变体，并强制对表示进行低秩对齐，提升了内在多模态知识编辑的泛化性，解决了现有方法泛化能力有限的问题。

0 人收藏 0 人点赞

#adversarial-training

PROWL: 面向世界模型学习的优先遗憾驱动优化

arXiv cs.LG ↗ · 2026-05-20 缓存

介绍了一种优先遗憾驱动优化框架PROWL，该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性，在MineRL中的分布外场景上取得了更好的性能。

0 人收藏 0 人点赞

#adversarial-training

我用强化学习训练Qwen3.5自我越狱，然后利用失败案例改进防御

Reddit r/LocalLLaMA ↗ · 2026-05-14

作者使用强化学习训练Qwen3.5自我越狱，通过多样性奖励暴露多种攻击策略，随后将防御方的鲁棒性从64%提升至92%，同时良性准确率略有下降。

0 人收藏 0 人点赞

#adversarial-training

基于知识引导扰动增强生物医学出版物类型与研究设计分类的鲁棒性

arXiv cs.CL ↗ · 2026-05-13 缓存

本文提出了一种针对生物医学出版物类型和研究设计分类的鲁棒评估框架及训练策略，利用知识引导的扰动来降低模型对虚假特征的依赖。

0 人收藏 0 人点赞

#adversarial-training

FragileFlow：通过频谱控制正确但脆弱的预测以增强基础模型的鲁棒性

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了 FragileFlow，这是一种插件式正则化器，通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测，从而提高 LLM 和 VLM 的鲁棒性。

0 人收藏 0 人点赞

#adversarial-training

大型语言模型的信息论对抗训练

arXiv cs.LG ↗ · 2026-05-08 缓存

本文介绍了 WARDEN，一种用于大型语言模型的分布鲁棒对抗训练框架。该框架利用 f-散度动态调整对抗样本的权重，在显著降低攻击成功率的同时保持了计算效率。

0 人收藏 0 人点赞

#adversarial-training

持续强化ChatGPT Atlas抵御提示注入攻击

OpenAI Blog ↗ · 2025-12-22 缓存

OpenAI宣布通过对抗训练和强化防护措施，持续加固ChatGPT Atlas以抵御提示注入攻击，包括建立快速响应循环，在新型攻击策略出现于实际环境前即发现并缓解。

0 人收藏 0 人点赞

#adversarial-training

半监督文本分类的对抗训练方法

OpenAI Blog ↗ · 2016-05-25 缓存

本文提出了针对文本分类的对抗训练和虚拟对抗训练方法，通过在RNN中对词嵌入而非原始输入施加扰动来实现。该方法在半监督和监督文本分类基准上取得了最先进的结果，同时降低了过拟合。

0 人收藏 0 人点赞

adversarial-training

提交意见反馈