safety-alignment

标签

Cards List
#safety-alignment

COMPASS:面向安全搜索智能体的认知MCTS引导过程对齐

arXiv cs.AI · 3天前 缓存

提出了COMPASS,一种认知MCTS引导的过程对齐框架,通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性,在更少的训练数据下实现了良好的安全-效用权衡。

0 人收藏 0 人点赞
#safety-alignment

可配置奖励模型用于平衡安全对齐

arXiv cs.CL · 3天前 缓存

本文介绍了一种可配置安全奖励模型(CSRM),该奖励模型可根据需求配置,以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果,并改善了有用性与安全性之间的权衡。

0 人收藏 0 人点赞
#safety-alignment

对齐但脆弱:通过零阶优化增强LLM安全鲁棒性

arXiv cs.AI · 6天前 缓存

本文提出了一个混合框架,结合一阶安全对齐与零阶微调,以增强LLM安全对齐在受到对齐后扰动时的鲁棒性。理论和实验结果表明,仅需少量微调步骤即可在保持安全性的同时提升鲁棒性。

0 人收藏 0 人点赞
#safety-alignment

面向安全对齐的课程学习

arXiv cs.LG · 2026-05-27 缓存

本文提出Staged-Competence,一种基于课程学习的DPO安全对齐框架,它按难度组织偏好数据,显著提升鲁棒性和数据效率,同时保持通用能力。

0 人收藏 0 人点赞
#safety-alignment

Palette:一种模块化、可控且高效的大语言模型按需授权安全对齐放松框架

arXiv cs.AI · 2026-05-26 缓存

Palette提出了一种模块化框架,用于在授权的专业领域中选择性地放松大语言模型的安全拒绝行为,利用多目标搜索和轻量级适配来避免昂贵的重新训练。

0 人收藏 0 人点赞
#safety-alignment

使用基于策略的自蒸馏方法降低LLM安全对齐中的安全税

arXiv cs.LG · 2026-05-18 缓存

本文介绍了OPSA,一种用于LLM安全对齐的基于策略的自蒸馏方法,该方法通过在模型自身的轨迹上进行训练,并使用教师翻转率激活潜在的安全推理,从而降低了安全税,在多个模型规模上实现了更强的安全-推理权衡。

0 人收藏 0 人点赞
#safety-alignment

GradShield:保持对齐的微调

arXiv cs.CL · 2026-05-15 缓存

GradShield 引入了一种基于原则的过滤方法,通过计算微调隐式有害性评分(FIHS)并使用自适应阈值去除有害数据,在微调过程中保持 LLM 的安全对齐,在保持实用性的同时实现较低的攻击成功率。

0 人收藏 0 人点赞
#safety-alignment

利用逆强化学习进行多目标约束推断

arXiv cs.AI · 2026-05-11 缓存

本文介绍了 MOCI,这是一种新颖的框架,能够从强化学习中的异构专家演示中推断共享约束和个体偏好,在预测性能和计算效率方面均优于现有基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈