deception-detection

#deception-detection

RogueAI：一种用于检测对话中特许AI欺骗的反向图灵测试

arXiv cs.CL ↗ · 昨天缓存

本文介绍了RogueAI，一个以交互式网络应用形式实现的反向图灵测试，其中人类玩家审问两个LLM智能体，以识别在共享虚构场景中被特许欺骗的那个。初步部署显示，启发式检测（准确率75.6%）与人类表现（准确率56.6%）之间存在差距，凸显了该系统作为AI欺骗与诚实数据收集和教学工具的潜力。

0 人收藏 0 人点赞

#deception-detection

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文系统测试了用于大语言模型欺骗检测的线性探头，发现它们在分布偏移下失效，但风格增强型探头能恢复性能，并揭示欺骗是通过分布式亚阈值特征编码的。

0 人收藏 0 人点赞

#deception-detection

arXiv cs.CL ↗ · 2026-05-19 缓存

引入反事实定位方法，用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境，包含四个推理模型的146万句子语料库。研究表明，基于注意力的转换特征在不同环境中具有泛化能力，可用于检测欺骗承诺。

0 人收藏 0 人点赞