deception-detection

标签

Cards List
#deception-detection

大语言模型中欺骗探测探头的压力测试:可伸缩性、鲁棒性与欺骗表征的几何特性

Hugging Face Daily Papers · 2026-05-27 缓存

本文系统测试了用于大语言模型欺骗检测的线性探头,发现它们在分布偏移下失效,但风格增强型探头能恢复性能,并揭示欺骗是通过分布式亚阈值特征编码的。

0 人收藏 0 人点赞
#deception-detection

不归点:语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL · 2026-05-19 缓存

引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈