@OpenAI:我们还测试了在压力下对齐是否持续。该模型更难通过对抗性提示被引导到有害行为,……
摘要
OpenAI报告称,其模型通过对抗性提示和微调表现出对有害行为的更强抵抗力,表明在压力下对齐持久性有所提高。
查看缓存全文
缓存时间: 2026/06/18 22:23
我们还测试了对齐在压力下是否能够持续。在面对对抗性提示时,模型更难被引导至有害行为,同时仍能对有益指令保持响应。我们看到了初步证据,表明模型对有害微调具有更强的抵抗力。https://t.co/dFXdWdMuDG
相似文章
@OpenAI:随着AI承担更长、风险更高的任务,我们希望模型能够将有益且安全的行为推广到新的领域,超越训练范围……
OpenAI发布了关于强化学习的研究,用于训练模型展现出诚实和可纠正性等有益特质,表明这种训练能够跨领域泛化,并在对抗性压力下持续存在。
理解与防止失调泛化
# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且
强化学习走向广泛且持久的受益模型(22分钟阅读)
OpenAI研究人员表明,针对有益特质(诚实、透明、可纠正性)在现实场景中进行强化学习,能在数十个对齐基准上产生广泛改进,且这些改进能够泛化到训练领域之外,并在对抗压力下持续存在。
@OpenAI:这是朝着更强大有益且更对齐的模型迈出的早期一步:训练模型将有益特质带入新场景……
OpenAI宣布了朝着训练AI模型将有益特质带入新场景的早期一步,旨在使AI在能力增强的同时更加可靠、透明和有用。
@AnthropicAI: Anthropic Fellows 的最新研究:开发自动化对齐研究员。我们进行了一项实验,以了解 Cla…
Anthropic Fellows 的研究展示了一项使用 Claude Opus 4.6 加速对齐研究的实验,该研究关注弱到强监督,探索较弱的 AI 模型是否能在训练过程中有效监督较强的模型。