reasoning-llms

#reasoning-llms

解码推理型LLM中隐藏的欺骗：用于欺骗审计的激活解释器

arXiv cs.CL ↗ · 2026-06-17 缓存

提出了STATEWITNESS，一种用于审计推理型LLM中欺骗的激活解释器，相比现有监测器取得了显著改进，并提供了可供人工检查的证据。

0 人收藏 0 人点赞

#reasoning-llms

arXiv cs.CL ↗ · 2026-04-22 缓存

研究发现，思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点，并据此提出免训练 SRQ 引导方法，无需微调即可提升准确率。

0 人收藏 0 人点赞