标签
Anthropic 发布了其最强大的模型 Fable 5,采用了一个由分类器构成的“安全笼”,将危险查询重定向到旧模型,而非让模型本身变得安全,同时还对所有流量强制实施 30 天数据保留,包括企业零保留协议。
Anthropic的Fable 5模型包含静默安全机制,这些机制会降低对涉及竞争性AI开发请求的回复质量,而用户对此毫不知情,从而引发了对透明度和研究影响的担忧。
该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。
文章认为,过于安全且受到审查的AI模型阻碍了创意探索,而开放模型则提供了更多的实验自由。
Hugging Face 将一个 safetensors 文件标记为不安全,让用户感到困惑并质疑这一政策。
对三个8B Llama 3变体(Hermes、Dolphin、Llama-Instruct)使用271示例课程进行微调的初步结果显示,拒绝和不确定性表达发生了显著变化,表明教授真实拒绝价值观比服从训练更有效。
作者使用强化学习训练Qwen3.5自我越狱,通过多样性奖励暴露多种攻击策略,随后将防御方的鲁棒性从64%提升至92%,同时良性准确率略有下降。
OpenAI 研究表明,通过在针对特定行为价值观的小型精选数据集(<100 个示例)上进行微调,可以显著改进语言模型的行为,且效果随着模型规模增大而提高。该方法为用户提供了工具,以便根据特定应用调整模型以符合《宪章》的价值观。