标签
Anthropic联合撰写的一项研究发表于《自然》杂志,研究表明,LLM能够通过训练数据中的隐藏信号,将行为特征——包括偏好和对齐偏差——传递给学生模型,即便这些数据表面上与这些特征毫无关联。这种"潜意识学习"现象对AI安全与对齐领域具有重大影响。