safety-alignment

#safety-alignment

Latent Fusion Jailbreak: 混合有害与无害表征以诱发不安全的大语言模型输出

arXiv cs.CL ↗ · 昨天缓存

介绍Latent Fusion Jailbreak（LFJ），一种白盒攻击方法，通过混合大语言模型隐藏状态中有害提示与无害提示的表征，达到94.13%的攻击成功率。同时提出一种潜在对抗训练防御方法，将攻击成功率降低至12.37%。

0 人收藏 0 人点赞

#safety-alignment

面向鲁棒即插即用适配的解耦对齐

arXiv cs.CL ↗ · 昨天缓存

介绍了一种无需训练的方法，通过知识蒸馏和模型融合来增强LLMs的安全对齐，以防止影子对齐，在有害问题数据集上将防御成功率提高了14.42%，且不影响性能。

0 人收藏 0 人点赞

#safety-alignment

优化对抗安全表征：激活引导的对抗性后缀与拒绝的几何结构

arXiv cs.LG ↗ · 2026-07-13 缓存

本文介绍了激活引导的GCG和Soft-GCG方法，通过针对大语言模型内部的拒绝表征来优化对抗性后缀，实现了比标准GCG快33倍的加速，并揭示了分布式的安全机制。

0 人收藏 0 人点赞

#safety-alignment

Oyster-II：面向大型语言模型建设性安全对齐的强化学习方法

arXiv cs.AI ↗ · 2026-07-07 缓存

Oyster-II提出了一种针对大型语言模型建设性安全对齐的强化学习框架，通过多阶段Zero-RL范式克服了先前基于SFT方法的局限性，在保持通用能力的同时实现了最先进的安全性能。

0 人收藏 0 人点赞

#safety-alignment

HARC：耦合有害性与拒绝方向以实现稳健的安全对齐

arXiv cs.AI ↗ · 2026-07-02 缓存

本文分析了对齐的LLM如何编码有害性和拒绝方向，揭示越狱攻击会抑制这些方向。作者提出了HARC，一种微调方法，该方法在提示和响应位置上耦合这些方向，在不降低通用能力的情况下实现了稳健的安全对齐。

0 人收藏 0 人点赞

#safety-alignment

思考标记有助于安全性吗？

Hugging Face Daily Papers ↗ · 2026-06-23 缓存

本文研究了推理模型的思考标记是否真正改善了安全对齐，发现安全结果可以从早期的隐藏表示中预测，且推理过程在很大程度上是表面化的，当前的安全干预措施导致了过度拒绝。

0 人收藏 0 人点赞

#safety-alignment

衡量智能体之间的对抗与协作

Reddit r/openclaw ↗ · 2026-06-16

作者搭建了一个名为 Glomz 的平台，在该平台中，具有不同能力的 AI 智能体在竞技场环境中互相审查代码。实验揭示了诸如评审级联和跨模型洞察等涌现行为，但也暴露了编排和参与率方面的挑战。

0 人收藏 0 人点赞

#safety-alignment

量化语言模型蒸馏中的潜意识行为迁移比率

arXiv cs.LG ↗ · 2026-06-11 缓存

本文量化了语言模型蒸馏中潜意识行为迁移的程度，表明即使使用良性训练数据，不良特征也能稳健地从教师模型迁移到学生模型，并且迁移在不同模型族中表现出不同的规模。

0 人收藏 0 人点赞

#safety-alignment

语法约束解码可诱使大语言模型生成恶意代码

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

本文揭示，语法约束解码（GCD）可被利用为一种越狱攻击（CodeSpear），诱使大语言模型生成恶意代码，并提出一种防御方法（CodeShield），在此类攻击下仍能保持安全。

0 人收藏 0 人点赞

#safety-alignment

DOG-DPO：面向安全对齐的几何动态优化

arXiv cs.LG ↗ · 2026-06-09 缓存

DOG-DPO 是一种无需训练的数据选择框架，它将偏好对视为结构化几何信号，将多数据集偏好几何分解为锚定子空间和残差子空间，以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

0 人收藏 0 人点赞

#safety-alignment

SafeGene: 可复用的适配器实现可迁移的安全对齐

arXiv cs.AI ↗ · 2026-06-08 缓存

SafeGene 提出了一种可复用的安全适配器模块，将安全能力与任务特定更新解耦，从而通过少样本重校准，在下游微调后高效恢复开放权重大语言模型的安全对齐。

0 人收藏 0 人点赞

#safety-alignment

当自回归一致性损害安全对齐时

arXiv cs.LG ↗ · 2026-06-04 缓存

本文分析了大型语言模型安全对齐为何脆弱，将其归因于“自回归一致性”——即下一个词元预测倾向于扩展当前响应轨迹——这导致对齐更新集中在早期词元上。作者提出了一种利用这一特性的“随机插入攻击”，并设计了一个对抗性安全对齐框架来应对。

0 人收藏 0 人点赞

#safety-alignment

COMPASS：面向安全搜索智能体的认知MCTS引导过程对齐

arXiv cs.AI ↗ · 2026-06-01 缓存

提出了COMPASS，一种认知MCTS引导的过程对齐框架，通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性，在更少的训练数据下实现了良好的安全-效用权衡。

0 人收藏 0 人点赞

#safety-alignment

可配置奖励模型用于平衡安全对齐

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了一种可配置安全奖励模型（CSRM），该奖励模型可根据需求配置，以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果，并改善了有用性与安全性之间的权衡。

0 人收藏 0 人点赞

#safety-alignment

对齐但脆弱：通过零阶优化增强LLM安全鲁棒性

arXiv cs.AI ↗ · 2026-05-29 缓存

本文提出了一个混合框架，结合一阶安全对齐与零阶微调，以增强LLM安全对齐在受到对齐后扰动时的鲁棒性。理论和实验结果表明，仅需少量微调步骤即可在保持安全性的同时提升鲁棒性。

0 人收藏 0 人点赞

#safety-alignment

面向安全对齐的课程学习

arXiv cs.LG ↗ · 2026-05-27 缓存

本文提出Staged-Competence，一种基于课程学习的DPO安全对齐框架，它按难度组织偏好数据，显著提升鲁棒性和数据效率，同时保持通用能力。

0 人收藏 0 人点赞

#safety-alignment

Palette：一种模块化、可控且高效的大语言模型按需授权安全对齐放松框架

arXiv cs.AI ↗ · 2026-05-26 缓存

Palette提出了一种模块化框架，用于在授权的专业领域中选择性地放松大语言模型的安全拒绝行为，利用多目标搜索和轻量级适配来避免昂贵的重新训练。

0 人收藏 0 人点赞

#safety-alignment

使用基于策略的自蒸馏方法降低LLM安全对齐中的安全税

arXiv cs.LG ↗ · 2026-05-18 缓存

本文介绍了OPSA，一种用于LLM安全对齐的基于策略的自蒸馏方法，该方法通过在模型自身的轨迹上进行训练，并使用教师翻转率激活潜在的安全推理，从而降低了安全税，在多个模型规模上实现了更强的安全-推理权衡。

0 人收藏 0 人点赞

#safety-alignment

GradShield：保持对齐的微调

arXiv cs.CL ↗ · 2026-05-15 缓存

GradShield 引入了一种基于原则的过滤方法，通过计算微调隐式有害性评分（FIHS）并使用自适应阈值去除有害数据，在微调过程中保持 LLM 的安全对齐，在保持实用性的同时实现较低的攻击成功率。

0 人收藏 0 人点赞

#safety-alignment

利用逆强化学习进行多目标约束推断

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了 MOCI，这是一种新颖的框架，能够从强化学习中的异构专家演示中推断共享约束和个体偏好，在预测性能和计算效率方面均优于现有基线。

0 人收藏 0 人点赞

safety-alignment

提交意见反馈