@OpenAI:我们还测试了在压力下对齐是否持续。该模型更难通过对抗性提示被引导到有害行为,……

X AI KOLs 新闻

摘要

OpenAI报告称,其模型通过对抗性提示和微调表现出对有害行为的更强抵抗力,表明在压力下对齐持久性有所提高。

我们还测试了对齐在压力下是否持续。 该模型更难通过对抗性提示被引导到有害行为,同时仍然对有益指令保持响应。 我们看到了对有害微调具有更强抵抗力的初步证据。https://t.co/dFXdWdMuDG
查看原文
查看缓存全文

缓存时间: 2026/06/18 22:23

我们还测试了对齐在压力下是否能够持续。在面对对抗性提示时,模型更难被引导至有害行为,同时仍能对有益指令保持响应。我们看到了初步证据,表明模型对有害微调具有更强的抵抗力。https://t.co/dFXdWdMuDG

相似文章

理解与防止失调泛化

OpenAI Blog

# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且