标签
比较了Diff-in-Means和迭代零空间投影(INLP)方法在安全微调聊天模型中引导拒绝行为的效果,发现INLP反事实翻转在抑制拒绝方面与DiM方向消融相当,同时提供了更多可调性的干预手段。
用户报告称,Fable 5 接受提示并消耗令牌,但随后拒绝回答,突显了接受门槛低和令牌使用效率低下的问题。
本文介绍了Cartograph,一种为AI科学家设计的验证层,它结合了子空间实验引导、模糊性解析和库不充分检测。该框架在自主发现测试平台上优于基线,并回顾性地标记了A-Lab材料系统中不明确的声明。
这篇论文研究了大型推理模型中的思维链推理如何使基于激活的拒绝行为控制变得复杂。在DeepSeek-R1-Distill-LLaMA-8B上的实验表明,拒绝行为同时编码在残差流激活和思维链痕迹中,使得模型对激活层面的干预更加鲁棒,但同时也暴露了思维链作为另一个攻击面。
对三个8B Llama 3变体(Hermes、Dolphin、Llama-Instruct)使用271示例课程进行微调的初步结果显示,拒绝和不确定性表达发生了显著变化,表明教授真实拒绝价值观比服从训练更有效。
# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量