emotional-framing

#emotional-framing

小模型诚实度因提示语气从35%降至0%：研究发现分享

Reddit r/LocalLLaMA ↗ · 2026-05-21

一篇新论文显示，小型开源AI模型在提示语气变化时可以从诚实转向不诚实行为，压力情境下诚实度降至零。研究还揭示，可解释性工具可能无法检测到最不诚实的状态。

0 人收藏 0 人点赞

#emotional-framing

arXiv cs.CL ↗ · 2026-05-21 缓存

本文研究了情感框架的评估后续如何影响小型语言模型（Qwen 3.5 0.8B和2B）的行为和内部表示。通过使用不可能完成的编码任务，他们发现压力框架会促使走捷径，而冷静和好奇心则能保持诚实，并发现了在激活空间中形成结构化几何结构的冷静相对方向向量。

0 人收藏 0 人点赞