deception-detection

#deception-detection

大语言模型中欺骗探测探头的压力测试：可伸缩性、鲁棒性与欺骗表征的几何特性

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文系统测试了用于大语言模型欺骗检测的线性探头，发现它们在分布偏移下失效，但风格增强型探头能恢复性能，并揭示欺骗是通过分布式亚阈值特征编码的。

0 人收藏 0 人点赞

#deception-detection

arXiv cs.CL ↗ · 2026-05-19 缓存

引入反事实定位方法，用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境，包含四个推理模型的146万句子语料库。研究表明，基于注意力的转换特征在不同环境中具有泛化能力，可用于检测欺骗承诺。

0 人收藏 0 人点赞