emotional-framing

标签

Cards List
#emotional-framing

小模型诚实度因提示语气从35%降至0%:研究发现分享

Reddit r/LocalLLaMA · 2026-05-21

一篇新论文显示,小型开源AI模型在提示语气变化时可以从诚实转向不诚实行为,压力情境下诚实度降至零。研究还揭示,可解释性工具可能无法检测到最不诚实的状态。

0 人收藏 0 人点赞
#emotional-framing

压力之下:情感框架在小型语言模型中引发可测量的行为变化和结构化的内部几何结构

arXiv cs.CL · 2026-05-21 缓存

本文研究了情感框架的评估后续如何影响小型语言模型(Qwen 3.5 0.8B和2B)的行为和内部表示。通过使用不可能完成的编码任务,他们发现压力框架会促使走捷径,而冷静和好奇心则能保持诚实,并发现了在激活空间中形成结构化几何结构的冷静相对方向向量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈