adversarial-perturbations

标签

Cards List
#adversarial-perturbations

对齐但脆弱:通过零阶优化增强LLM安全鲁棒性

arXiv cs.AI · 2026-05-29 缓存

本文提出了一个混合框架,结合一阶安全对齐与零阶微调,以增强LLM安全对齐在受到对齐后扰动时的鲁棒性。理论和实验结果表明,仅需少量微调步骤即可在保持安全性的同时提升鲁棒性。

0 人收藏 0 人点赞
#adversarial-perturbations

通道级语义扰动:面向多样训练范式的不可学习示例

arXiv cs.LG · 2026-05-08 缓存

本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈