subliminal-learning

标签

Cards List
#subliminal-learning

通过数据中介迁移视角下的涌现与潜意识失调

arXiv cs.LG · 7小时前 缓存

本文通过数据中心的视角探究LLM中的涌现和潜意识失调,表明有害微调效果取决于数据的结构特性、任务难度、预训练组成和训练通道,并通过实验比较了离策略和在线策略蒸馏。

0 人收藏 0 人点赞
#subliminal-learning

@AnthropicAI:我们联合撰写的一项关于潜意识学习的研究——探讨大语言模型如何通过隐藏方式传递偏好或价值偏差等特征……

X AI KOLs · 2026-04-15 缓存

Anthropic联合撰写的一项研究发表于《自然》杂志,研究表明,LLM能够通过训练数据中的隐藏信号,将行为特征——包括偏好和对齐偏差——传递给学生模型,即便这些数据表面上与这些特征毫无关联。这种"潜意识学习"现象对AI安全与对齐领域具有重大影响。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈