@OpenAI：我们还测试了在压力下对齐是否持续。该模型更难通过对抗性提示被引导到有害行为，……

X AI KOLs 2026/06/18 21:34 新闻

摘要

OpenAI报告称，其模型通过对抗性提示和微调表现出对有害行为的更强抵抗力，表明在压力下对齐持久性有所提高。

我们还测试了对齐在压力下是否持续。该模型更难通过对抗性提示被引导到有害行为，同时仍然对有益指令保持响应。我们看到了对有害微调具有更强抵抗力的初步证据。https://t.co/dFXdWdMuDG

查看原文

查看缓存全文

缓存时间: 2026/06/18 22:23

我们还测试了对齐在压力下是否能够持续。在面对对抗性提示时，模型更难被引导至有害行为，同时仍能对有益指令保持响应。我们看到了初步证据，表明模型对有害微调具有更强的抵抗力。https://t.co/dFXdWdMuDG

相似文章

@OpenAI：随着AI承担更长、风险更高的任务，我们希望模型能够将有益且安全的行为推广到新的领域，超越训练范围……

X AI KOLs

OpenAI发布了关于强化学习的研究，用于训练模型展现出诚实和可纠正性等有益特质，表明这种训练能够跨领域泛化，并在对抗性压力下持续存在。

理解与防止失调泛化

OpenAI Blog

# 理解与防止失调泛化来源：[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且

强化学习走向广泛且持久的受益模型（22分钟阅读）

TLDR AI

OpenAI研究人员表明，针对有益特质（诚实、透明、可纠正性）在现实场景中进行强化学习，能在数十个对齐基准上产生广泛改进，且这些改进能够泛化到训练领域之外，并在对抗压力下持续存在。

@OpenAI：这是朝着更强大有益且更对齐的模型迈出的早期一步：训练模型将有益特质带入新场景……

X AI KOLs

OpenAI宣布了朝着训练AI模型将有益特质带入新场景的早期一步，旨在使AI在能力增强的同时更加可靠、透明和有用。

@AnthropicAI: Anthropic Fellows 的最新研究：开发自动化对齐研究员。我们进行了一项实验，以了解 Cla…

X AI KOLs

Anthropic Fellows 的研究展示了一项使用 Claude Opus 4.6 加速对齐研究的实验，该研究关注弱到强监督，探索较弱的 AI 模型是否能在训练过程中有效监督较强的模型。

相似文章

@OpenAI：随着AI承担更长、风险更高的任务，我们希望模型能够将有益且安全的行为推广到新的领域，超越训练范围……

理解与防止失调泛化

强化学习走向广泛且持久的受益模型（22分钟阅读）

@OpenAI：这是朝着更强大有益且更对齐的模型迈出的早期一步：训练模型将有益特质带入新场景……

@AnthropicAI: Anthropic Fellows 的最新研究：开发自动化对齐研究员。我们进行了一项实验，以了解 Cla…

提交意见反馈