emergent-misalignment

标签

Cards List
#emergent-misalignment

通过数据中介迁移视角下的涌现与潜意识失调

arXiv cs.LG · 7小时前 缓存

本文通过数据中心的视角探究LLM中的涌现和潜意识失调,表明有害微调效果取决于数据的结构特性、任务难度、预训练组成和训练通道,并通过实验比较了离策略和在线策略蒸馏。

0 人收藏 0 人点赞
#emergent-misalignment

理解与防止失调泛化

OpenAI Blog · 2025-06-18 缓存

# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且

0 人收藏 0 人点赞
← 返回首页

提交意见反馈