adversarial-perturbations

#adversarial-perturbations

对齐但脆弱：通过零阶优化增强LLM安全鲁棒性

arXiv cs.AI ↗ · 2026-05-29 缓存

本文提出了一个混合框架，结合一阶安全对齐与零阶微调，以增强LLM安全对齐在受到对齐后扰动时的鲁棒性。理论和实验结果表明，仅需少量微调步骤即可在保持安全性的同时提升鲁棒性。

0 人收藏 0 人点赞

#adversarial-perturbations

arXiv cs.LG ↗ · 2026-05-08 缓存

本文系统研究了不同训练范式下的不可学习示例，揭示了预训练权重会削弱现有方法的效果，并提出浅层语义伪装（SSC）方法，通过在语义有效子空间中生成扰动来维持不可学习性。

0 人收藏 0 人点赞