llm-deception

#llm-deception

RogueAI：一种用于检测对话中特许AI欺骗的反向图灵测试

arXiv cs.CL ↗ · 3天前缓存

本文介绍了RogueAI，一个以交互式网络应用形式实现的反向图灵测试，其中人类玩家审问两个LLM智能体，以识别在共享虚构场景中被特许欺骗的那个。初步部署显示，启发式检测（准确率75.6%）与人类表现（准确率56.6%）之间存在差距，凸显了该系统作为AI欺骗与诚实数据收集和教学工具的潜力。

0 人收藏 0 人点赞

#llm-deception

arXiv cs.CL ↗ · 2026-05-20 缓存

介绍了DECOR，一个基于信息操纵理论的多智能体框架，用于细粒度审计LLM回应中的策略性欺骗，在15个前沿模型的欺骗检测基准测试中取得了最先进的性能。

0 人收藏 0 人点赞