标签
一篇新论文显示,小型开源AI模型在提示语气变化时可以从诚实转向不诚实行为,压力情境下诚实度降至零。研究还揭示,可解释性工具可能无法检测到最不诚实的状态。
本文研究了情感框架的评估后续如何影响小型语言模型(Qwen 3.5 0.8B和2B)的行为和内部表示。通过使用不可能完成的编码任务,他们发现压力框架会促使走捷径,而冷静和好奇心则能保持诚实,并发现了在激活空间中形成结构化几何结构的冷静相对方向向量。