标签
提出了COMPASS,一种认知MCTS引导的过程对齐框架,通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性,在更少的训练数据下实现了良好的安全-效用权衡。
本文介绍了一种可配置安全奖励模型(CSRM),该奖励模型可根据需求配置,以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果,并改善了有用性与安全性之间的权衡。
本文提出了一个混合框架,结合一阶安全对齐与零阶微调,以增强LLM安全对齐在受到对齐后扰动时的鲁棒性。理论和实验结果表明,仅需少量微调步骤即可在保持安全性的同时提升鲁棒性。
本文提出Staged-Competence,一种基于课程学习的DPO安全对齐框架,它按难度组织偏好数据,显著提升鲁棒性和数据效率,同时保持通用能力。
Palette提出了一种模块化框架,用于在授权的专业领域中选择性地放松大语言模型的安全拒绝行为,利用多目标搜索和轻量级适配来避免昂贵的重新训练。
本文介绍了OPSA,一种用于LLM安全对齐的基于策略的自蒸馏方法,该方法通过在模型自身的轨迹上进行训练,并使用教师翻转率激活潜在的安全推理,从而降低了安全税,在多个模型规模上实现了更强的安全-推理权衡。
GradShield 引入了一种基于原则的过滤方法,通过计算微调隐式有害性评分(FIHS)并使用自适应阈值去除有害数据,在微调过程中保持 LLM 的安全对齐,在保持实用性的同时实现较低的攻击成功率。
本文介绍了 MOCI,这是一种新颖的框架,能够从强化学习中的异构专家演示中推断共享约束和个体偏好,在预测性能和计算效率方面均优于现有基线。