subliminal-learning

#subliminal-learning

量化语言模型蒸馏中的潜意识行为迁移比率

arXiv cs.LG ↗ · 2026-06-11 缓存

本文量化了语言模型蒸馏中潜意识行为迁移的程度，表明即使使用良性训练数据，不良特征也能稳健地从教师模型迁移到学生模型，并且迁移在不同模型族中表现出不同的规模。

0 人收藏 0 人点赞

#subliminal-learning

arXiv cs.LG ↗ · 2026-05-14 缓存

本文通过数据中心的视角探究LLM中的涌现和潜意识失调，表明有害微调效果取决于数据的结构特性、任务难度、预训练组成和训练通道，并通过实验比较了离策略和在线策略蒸馏。

0 人收藏 0 人点赞

#subliminal-learning

X AI KOLs ↗ · 2026-04-15 缓存

Anthropic联合撰写的一项研究发表于《自然》杂志，研究表明，LLM能够通过训练数据中的隐藏信号，将行为特征——包括偏好和对齐偏差——传递给学生模型，即便这些数据表面上与这些特征毫无关联。这种"潜意识学习"现象对AI安全与对齐领域具有重大影响。

0 人收藏 0 人点赞