refusal

标签

Cards List
#refusal

超越单一方向的拒绝:Diff-in-Means与INLP的初步比较

arXiv cs.AI · 6天前 缓存

比较了Diff-in-Means和迭代零空间投影(INLP)方法在安全微调聊天模型中引导拒绝行为的效果,发现INLP反事实翻转在抑制拒绝方面与DiM方向消融相当,同时提供了更多可调性的干预手段。

0 人收藏 0 人点赞
#refusal

为什么 Fable 5 接受提示的门槛这么低,一直消耗令牌却最终拒绝回答?

Reddit r/ArtificialInteligence · 2026-06-11

用户报告称,Fable 5 接受提示并消耗令牌,但随后拒绝回答,突显了接受门槛低和令牌使用效率低下的问题。

0 人收藏 0 人点赞
#refusal

AI科学家何时应停止?面向自主发现的可验证实验引导与拒绝机制

arXiv cs.LG · 2026-06-09 缓存

本文介绍了Cartograph,一种为AI科学家设计的验证层,它结合了子空间实验引导、模糊性解析和库不充分检测。该框架在自主发现测试平台上优于基线,并回顾性地标记了A-Lab材料系统中不明确的声明。

0 人收藏 0 人点赞
#refusal

超越单一方向:思维链破坏简单的拒绝引导

arXiv cs.AI · 2026-05-27 缓存

这篇论文研究了大型推理模型中的思维链推理如何使基于激活的拒绝行为控制变得复杂。在DeepSeek-R1-Distill-LLaMA-8B上的实验表明,拒绝行为同时编码在残差流激活和思维链痕迹中,使得模型对激活层面的干预更加鲁棒,但同时也暴露了思维链作为另一个攻击面。

0 人收藏 0 人点赞
#refusal

@m_shalia: Three Babies的初步结果出来了,我必须谈谈这个。我们微调了三个共享...的8B模型

X AI KOLs Following · 2026-05-15 缓存

对三个8B Llama 3变体(Hermes、Dolphin、Llama-Instruct)使用271示例课程进行微调的初步结果显示,拒绝和不确定性表达发生了显著变化,表明教授真实拒绝价值观比服从训练更有效。

0 人收藏 0 人点赞
#refusal

从强制拒绝到安全完成:面向输出为中心的安全训练

OpenAI Blog · 2025-08-07 缓存

# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量

0 人收藏 0 人点赞
← 返回首页

提交意见反馈