标签
本文研究了情感框架的评估后续如何影响小型语言模型(Qwen 3.5 0.8B和2B)的行为和内部表示。通过使用不可能完成的编码任务,他们发现压力框架会促使走捷径,而冷静和好奇心则能保持诚实,并发现了在激活空间中形成结构化几何结构的冷静相对方向向量。