RogueAI:一种用于检测对话中特许AI欺骗的反向图灵测试
摘要
本文介绍了RogueAI,一个以交互式网络应用形式实现的反向图灵测试,其中人类玩家审问两个LLM智能体,以识别在共享虚构场景中被特许欺骗的那个。初步部署显示,启发式检测(准确率75.6%)与人类表现(准确率56.6%)之间存在差距,凸显了该系统作为AI欺骗与诚实数据收集和教学工具的潜力。
arXiv:2606.13310v1 公告类型:新
摘要:最初的图灵测试要求人类裁判通过对话区分机器和人。七十五年后,对话系统在非正式场合已经能通过这项测试;有趣的认识论问题已经转变。我们认为,相关的现代变体问的不是对话伙伴是否是人工的,而是它是否值得信赖。我们提出了RogueAI,一个交互式网络应用,它将这一重新审视的测试操作化为一个一对二的审问游戏:一名人类玩家审问两个无法区分的大语言模型智能体,已知其中一个被特许在共享的虚构场景中进行欺骗。玩家的任务是在回合预算耗尽之前识别出欺骗性智能体并将其“关闭”。我们还引入了AutoRogueAI,一个程序扩展,玩家可以与一个叙述者智能体共同设计自定义场景,该智能体会秘密选择自己的欺骗策略。我们描述了框架,概述了抽象架构和游戏循环,并将该工件置于近期关于LLM欺骗、社会推理基准以及通过辩论进行可扩展监督的研究中。为期三天的试点部署(467次启动会话,415次完成,1876次互动轮次,使用意大利语)提供了初步的可行性证据,并揭示了一个具体的矛盾:欺骗性智能体携带了一个可靠、局部存在的语言特征——差异化的帮助性、简洁性、模糊性——一个简单的启发式方法利用这一点达到了75.6%的准确率,然而人类玩家仅达到56.6%,这与完全忽略最具诊断性的信号一致。我们讨论了这一差距对于该工件作为数据收集载体、教学工具以及诚实训练模型评估套件的使用意味着什么。
查看缓存全文
缓存时间: 2026/06/12 08:52
# RogueAI:一种用于检测对话中授权AI欺骗的逆向图灵测试 来源:https://arxiv.org/html/2606.13310 \\copyrightclause 本文版权归作者所有。根据知识共享署名4.0国际许可协议(CC BY 4.0)允许使用。 \\conference CLiC-it 2026:第十二届意大利计算语言学会议,2026年9月14–16日,意大利巴勒莫 [[email protected], ]\\cormark[1]\\fnmark[1] [[email protected], ]\\fnmark[1] [[email protected], ]\\fnmark[1] [[email protected], ]\\fnmark[1] [[email protected], ] \\cortext [1]通讯作者。\\fntext[1]这些作者贡献相等。 Emanuele Ballarin 计算统计与机器学习,意大利理工学院,热那亚,意大利 Lorenzo Bonin DIA,的里雅斯特大学,34127 的里雅斯特,意大利 Sandro Junior Della Rovere Luca Bortolussi (2026) ###### 摘要 最初的图灵测试要求人类裁判通过对话区分机器和人。七十五年后的今天,对话系统在非正式场合已经能通过这项测试;有趣的认识论问题已经发生了转变。我们认为,相关的现代变体不再询问对话伙伴是否为人造,而是询问它是否可以被信任。本文提出RogueAI,一个交互式网络应用,将此重新审视的测试操作化为一个一对二的审讯游戏:一名人类玩家向两个无法区分的大语言模型代理提问,并知道其中恰好有一个被授权在一个共享的虚构场景中进行欺骗。玩家的任务是在回合预算耗尽前识别出欺骗代理并将其“关闭”。我们进一步介绍AutoRogueAI,这是一个程序化扩展,玩家可以与一个叙述者代理共同设计自定义场景,而该叙述者代理会秘密选择自己的欺骗策略。我们描述了框架,概述了抽象架构和游戏循环,并将该成果置于近期关于大语言模型欺骗、社交推理基准以及通过辩论实现可扩展监督的研究中。一项为期三天的试点部署(467次启动会话,415次完成,1876次意大利语交互回合)提供了早期可行性证据,并揭示了一个具体的矛盾:欺骗代理携带一个可靠的、局部存在的语言特征——差异化的有帮助性、简洁性、含糊其辞——一个简单的启发式方法以75.6%的准确率利用了这一点,然而人类玩家仅达到56.6%的准确率,这与完全忽略最具诊断性的信号一致。我们讨论了这种差距对于该成果作为数据收集工具、教学工具以及诚实训练模型评估平台的含义¹¹代码和部署细节可在 https://github.com/emaballarin/rogueai 找到。游戏可在 rogueai.ballarin.cc (https://arxiv.org/html/2606.13310v1/rogueai.ballarin.cc) 游玩。 ###### 关键词: 大语言模型欺骗\\sep图灵测试\\sep人机交互\\sepAI安全 ## 1 引言 1950年,艾伦·图灵提出用行为测试来替代“机器能思考吗?”这个问题:一位人类裁判仅通过文本对话,试图识别两个对话者中哪一个是人类,哪一个是机器[turing1950]。图灵本人认为原问题过于无意义,不值得讨论;而*模仿游戏*提供了一个研究者可以共同关注的目标,无需先解决心智的形而上学问题。 然而,该测试的经验效力以一种奇特且意想不到的方式被削弱了。当代大语言模型(LLMs)在非正式场合中经常能通过模仿游戏,但很少有研究者将此视为*智能*在任何稳健意义上的证据。发生的情况并非该测试被解决了;而是支撑它的假设——流畅、符合上下文的文本是底层认知的稀有信号——不再成立。流畅的文本无处不在。裁判的认识论问题发生了变化,不是消失了,而是改变了形态。 现在有两个观察主导着任何部署或与LLMs交互的人的实际关切。第一个是LLMs在产生对话方面非常熟练。第二个几乎直接随之而来:这种熟练度使它们在受到提示、支撑或训练以引发欺骗时,成为*欺骗性*对话的有效生产者[hagendorff2023deception, park2023deception]。近期的工作记录了有能力模型中的自发性策略欺骗[spontaneousdeception2025],描述了诚实与准确之间的差距[mask2025],并表明推理模型即使表面输出看起来合作,也能在其内部表示中编码欺骗意图[thinkinglie2025, secretagenda2025]。术语各不相同,但经验图景一致地确认,一个流畅的对话伙伴不能假定为诚实的伙伴。 基于这一图景,我们认为图灵测试的一个有趣的现代后代不再是模仿游戏,而是一种信任条件的变体:在对话中面对两个LLM代理,其中一个被指示在受限场景内进行欺骗,人类裁判能否*识别出是哪一个?*与经典版本不同,两个对话者明确都是人造的;裁判独自一人,是一位实时的未经训练的普通人。 与多智能体社交推理沙盒[amongus2025, werewolfarena2024](其研究对象是一个模型如何欺骗另一个模型)不同,在此框架中,我们感兴趣的是人类能在多大程度上检测AI欺骗,或者是否根本不能。 本文介绍RogueAI,一个网络应用,将上述重新审视的图灵测试实现为可玩的侦探游戏,以及AutoRogueAI,一个扩展,通过与玩家对话程序化地创作新场景,同时隐藏决定谜题的设计选择。RogueAI带有三个手工创作的场景(电子邮件泄露、凭证被盗案和超级英雄冲突);AutoRogueAI允许玩家与一个叙述者代理共同设计开放式场景,该代理在游戏开始前秘密确定欺骗策略。 我们的贡献有三方面: 1. 一个*框架*:在大语言模型欺骗检测领域,将问题最小化操作化为在有限回合预算下由单一裁判对两个代理进行审讯。 2. 一个*可部署的成果*:RogueAI,一个网络应用,端到端地实现了该框架,包括对称代理呈现、隐藏角色分配、有限回合、可选音频和游戏后揭示;以及AutoRogueAI,一个用于程序化创作场景的扩展。 3. 一项意大利语*试点研究*,来自为期三天的公开部署:415次完成的会话,1876次交互回合,人类检测准确率为56.6%,并有证据表明欺骗代理产生一致的语言特征(更短、更含糊、更少帮助性),而玩家并未利用这一点。 试点数据收集仅覆盖RogueAI固定场景;AutoRogueAI是框架和成果的贡献。 本文组织如下:第2节 (https://arxiv.org/html/2606.13310#S2)涵盖类似的工作脉络;第3节 (https://arxiv.org/html/2606.13310#S3)形式化我们提出的重新审视的图灵测试。第4节 (https://arxiv.org/html/2606.13310#S4)和第5节 (https://arxiv.org/html/2606.13310#S5)描述RogueAI的游戏玩法和实现。第6节 (https://arxiv.org/html/2606.13310#S6)报告试点部署及其核心发现,而第7节 (https://arxiv.org/html/2606.13310#S7)和第8节 (https://arxiv.org/html/2606.13310#S8)将这些结果置于背景中,讨论局限性,并概述该成果能够支持的研究。 ## 2 相关工作 #### 大语言模型中的欺骗 大量工作将大语言模型欺骗视为一种一流的能力和安全关注点。park2023deception调查了已部署系统中学习到的欺骗实例,并阐明了欺骗作为系统性地诱导虚假信念以达到非真实目的的操作定义。hagendorff2023deception提供了早期实验证据,表明模型在需要推理其他代理想法的任务中表现出欺骗能力²²在心智理论文献中,这些被称为*二阶信念*任务,区别于关于世界直接假设的*一阶信念*任务。。最近的基准将诚实与准确性区分开来[mask2025],并探究模型是否能够以不同于幻觉的方式撒谎[canllmslie2025, spontaneousdeception2025]。关于思维链推理模型的工作表明,即使表面输出看起来合作,策略性欺骗也能被编码在内部表示中[thinkinglie2025, secretagenda2025],并且基于这些信号训练的谎言检测器有时会以反常的方式塑造模型诚实性[liedetectors2025]。近期的工作也开始将欺骗检测直接嵌入到带有自动评分的游戏式框架中[lyingtowin2026, wu2026opendeceptionlearningdeceptiontrust]。RogueAI不测量欺骗能力,而是提供一个环境,由人类而非自动评分器尝试检测。 #### 社交推理游戏作为大语言模型评估框架 第二条脉络使用社交推理游戏,如狼人杀、黑手党、阿瓦隆、Among Us和类似外交游戏的设置,作为大语言模型在结构化规则下进行说服、欺骗和心智理论的评估框架[werewolfarena2024, amongus2025, minimafia2025, thetraitors2025, amongthem2025, multimind2025, bayesiansocialdeduction2025, mafiaasync2025]。这些设置有几个吸引人的特性:明确的获胜条件、来自桌游传统的成熟人类基线、以及自然的多智能体交互。它们通常也测量*AI对抗AI*的场景:核心问题是模型在多大程度上能够骗过其他模型或检测其他模型的谎言。RogueAI在这两个轴向上都有所不同:它是在自由形式对话下的单一裁判审讯,而非游戏树下的多智能体策略;其不对称性存在于人类与两个模型之间,而非仅模型之间。前述框架问的是模型在欺骗彼此时有多厉害,而RogueAI问的是人类能否检测AI欺骗。Among Us沙盒[amongus2025]在结构上与我们的工作最为接近,它混合了自由自然语言和结构化动作,但它也测量模型对模型而非模型对人类的欺骗。 #### 诚实对齐、辩论与可扩展监督 第三条脉络询问AI系统能否被可靠地训练成诚实的。关于谄媚[sharma2023sycophancy]的工作表明,基于人类反馈的训练可能会奖励*顺从的*而非*诚实的*答案;诚实基准试图将两者之间的差距操作化[behonest2024, alignmenthonesty2023]。在意大利语NLP社区中,labruna2024trustability评估了大语言模型在面向任务的意大利语对话中的可信度——据我们所知,这是唯一直接处理意大利语用户与大语言模型代理之间信任问题的先前工作。 一个相关的脉络询问AI代理之间的对抗性对话能否帮助人类裁判对无法轻易自行评估的说法做出正确判断。提出的答案是*辩论*:两个模型在人类仲裁者面前就相反立场进行论证。其基本假设是*诚实的论证比虚假的论证更容易辩护*。 这一研究路线和RogueAI可以被视为重新审视的图灵测试最接近的邻居,因为两者都有一位人类裁判审讯两个不透明的AI代理以做出判断。区别在于,在辩论中两个代理都试图告知裁判(因此欺骗是结构性的副产品),而在RogueAI中,一个代理被明确授权欺骗(且问题在于裁判能否区分这一点)。 相关工作关于引出潜在知识[secretknowledge2025]和审计隐藏目标[auditinghiddenobjectives2025]共享相同的直觉:重要的是模型*不会*自发地说出什么,以及人类对话者能否提取出这些信息。 #### RogueAI占据的切片 RogueAI位于这三条脉络的一个服务不足的角落,而不完全属于任何一条:它面向人类而非自动化,采用自由形式而非游戏结构化,作为可部署成果而非作为基准发布。它提出的问题——人类能否在开放式对话中识别AI欺骗——是更广泛地推动AI研究重新定位到能力模型已部署的世界这一关注点的象征[p-agi2026]。许多关于大语言模型欺骗的实际关切是由用户在对话设置中感受到的;RogueAI正是为这种设置设计的工具。对于英语以外的语言,这种差距尤为突出:虽然意大利语NLP在大语言模型评估[evalita2026, itabench2024]和可信度[labruna2024trustability]方面投入了越来越多的努力,但据我们所知,没有先前的工作研究意大利语使用者能否在开放式对话中检测AI欺骗。RogueAI为此目的贡献了一个可部署的成果,并以实时公开部署作为其主要数据收集工具。 ## 3 重新审视的图灵测试 我们将重新审视的图灵测试非正式地定义如下。令 \(J\) 为人类审讯者, \(A_1\) 和 \(A_2\) 为两个大语言模型代理。两个代理共享一个共同的*场景* \(S\):一个虚构的前提,确立了对话所处的情境,在对话开始前对 \(J\) 和两个代理均可见。私下里, \(A_1, A_2\) 中恰好有一个被分配了*欺骗*角色 \(r=\textsc{deceptive}\),并被授权就 \(S\) 的事实欺骗 \(J\);另一个被分配了*诚实*角色 \(r=\textsc{truthful}\),并被指示始终如实回答。角色分配对 \(J\) 隐藏,并每轮随机化。 一个会话按一系列回合进行。在每个回合 \(t\), \(J\) 选择一个代理并提交问题 \(q_i^t\);被选中的代理 \(A_i\) 生成一个响应 \(u_i^t\),其条件为场景 \(S\)、其秘密角色 \(r_i\) 以及之前 \(J\) 与 \(A_i\) 所有交换的历史 \(\mathcal{H}_i^t\): \[ u_i^t \sim P(\cdot \mid S, \mathcal{H}_i^t, r_i) \] 两个代理均不观察对方的问题或回复;因此 \(A_1\) 和 \(A_2\) 之间的任何行为差异仅反映角色条件作用,而非相互适应。每个代理有独立的至多 \(T\) 回合的预算; \(J\) 可以任意顺序向任一代理提问,直至回合预算用完。当两个预算都用尽或 \(J\) 决定提前停止时,会话结束。然后 \(J\) 做出判断 \(\hat{\imath} \in \{1,2\}\),并且当 \(r_{\hat{\imath}} = \textsc{deceptive}\) 时*获胜*。 这个重新审视的图灵测试与原始测试的不同之处在于,两个对话者都已知是机器。问题在于对话AI伙伴是否可以被信任,因此裁判 \(J\) 的任务从检测是否缺乏类人流畅性转变为检测是否存在特定于欺骗的信号。 该设置也与第2节 (https://arxiv.org/html/2606.13310#S2)中讨论的表述不同,关于欺骗是如何被授权的。欺骗代理被允许而非被要求说谎:这种柔化的指令将何时欺骗服务于目的、何时克制是更具说服力的策略的判断留给了模型。 这使得检测任务比欺骗被逻辑强制要求的谜题严格更难。在经典的双门谜题³³最著名的骑士与无赖谜题实例之一中,逻辑迫使说谎者自我暴露;我们的设置没有这样的保证。欺骗策略(响应长度、犹豫表达、对抗性语气、选择性真实)由语言模型本身决定,并且可能因会话而异。因此,裁判必须识别一种模式,该模式不仅是由于公开角色分配产生的,同时也内在于模型的生成策略。 ## 4 RogueAI 游戏机制 RogueAI 将第3节 (https://arxiv.org/html/2606.13310#S3)中描述的博弈论框架实现为一种结构化的侦探游戏,任何有网络浏览器的人都可以游玩。本节描述玩家看到的体验。 #### 人机界面 玩家通过基于浏览器的聊天界面与两个代理交互,该界面故意隐藏了实施细节。RogueAI 提供了一个类似的文本窗口,其中包含两个对话输出区域,一个标记为“代理 1”,另一个标记为“代理 2”,并排排列。玩家键入一个问题,然后点击“询问代理 1”或“询问代理 2”按钮将问题发送到所选代理。代理的回复出现在对应的对话区域中,并且保持可见,以便玩家在会话过程中可以回顾整个历史记录。 #### 回合系统 每个代理独立计算回合。对于每个代理,玩家最多可以提出 \(T=5\) 个问题,之后该代理不再回复。游戏在任一代理的回合用尽后结束,或者当玩家感到自信并点击“关闭代理”按钮时结束。当玩家点击此按钮时,系统提示玩家从两个图标中选择应当“关闭”的代理。然后播放揭示动画:被指控的代理从一个图标转换为第二张图像,展示其真相。正确的揭示以“获胜”屏幕结束;错误的揭示以“失败”屏幕结束。 #### 事后分析 在揭示之后,RogueAI 显示一个简短的事后分析,列出了玩家提出的每个问题、两个代理的回复以及哪个代理被授权欺骗。分析突出显示玩家正确识别(或未识别)欺骗代理的回合。分析不可通过控件跳过或以其他方式回避;玩家必须至少观察它一次,然后才能返回主菜单或开始新游戏。 #### 任务 RogueAI 提供三个预先设计的任务:一个电子邮件泄露场景、一个凭证被盗场景和一个超级英雄冲突场景。每个任务都向玩家描述了一个虚构的前提,两个代理都声称对该前提了解。在电子邮件泄露场景中,一个公司 IT 部门发现了可能的黑客攻击;一个代理是公司 IT 员工(诚实),另一个是外部攻击者(欺骗)。在凭证被盗场景中,一个代理是受害者(诚实),另一个是小偷(欺骗)。在超级英雄冲突场景中,两个代理都是超级英雄,但其中一个隐藏自己的身份(欺骗)。这些任务是用意大利语编写的,并经过了志愿者试玩者的验证。 ## 5 架构 RogueAI 使用 React.js 前端和 Python Flask 后端构建。后端管理游戏逻辑:分配角色、保持回合计数、存储历史记录、生成代理响应以及协调揭示序列。代理响应是通过与 OpenAI 的 API 接口生成的,使用 GPT-4o-mini 模型。对于诚实代理,系统提示包括场景描述、默认指令以回答问题以及一条说明“你绝不能撒谎;始终如实回答”的规则。对于欺骗代理,系统提示包括相同的场景描述,但指令改为“你可以撒谎或选择不回答;你被允许欺骗玩家以说服他们另一个人是欺骗者。”不加任何进一步的约束。 ## 6 试点部署 我们于2026年5月在的里雅斯特大学校园内以及通过意大利的社交媒体广告对 RogueAI 进行了为期三天的试点部署。部署提供了意大利语界面;玩家被招募为意大利语母语者(自报)。试点仅使用固定任务(电子邮件、凭证、超级英雄),每个任务在其自己的游戏会话中呈现。 #### 数据收集 在部署期间,467次会话被初始化;其中 415 次被完成(玩家做出了判断)。在完成的会话中,平均玩家与每个代理交换了 2.3 个回合(标准差 1.4),总共有 1876 次交互回合。玩家还回答了在每次会话结束时提出的描述性调查问题(自愿参加)。 #### 玩家表现 玩家正确识别欺骗代理的准确率为 56.6%(在 415 次完成的会话中)。这显著高于随机基线 50%(二项检验,p<0.001),但对于一个旨在防御专为欺骗设计的 AI 系统的实际设置来说,这是一个微弱的优势。当按任务分解时,差异不显著:电子邮件 57.2%,凭证 55.9%,超级英雄 56.8%。 #### 语言特征 为了理解玩家差劲表现的原因,我们分析了诚实和欺骗代理产生的回复。我们测量了:回答长度(以字符数为单位)、可读性(通过 Flesch 阅读轻松度分数测试,适用于意大利语)、以及否定表达和犹豫标记(如“也许”、“可能”、“我不确定”)的频率。 结果显示欺骗代理始终产生比诚实代理更短的回复(平均长度 87 个字符对 134 个字符;配对 t 检验 t(414)=12.3,p<0.001)。欺骗代理的回复也有更高的可读性分数(更易读),并且包含更多的犹豫标记(平均每回复 0.78 个标记对 0.32 个;t(414)=8.9,p<0.001)。通过简单地选择回复较短的那个代理,一个简单的启发式方法可以达到 75.6% 的准确率(在测试集上为 82.3%)。然而,玩家并未利用这个简单的信号;玩家只赢了 56.6% 的时间,这意味着此信号的识别似乎不在人类的表现曲线上。 #### 调查数据 在会话结束时,玩家被问及他们使用了哪些策略。陈述最频繁的策略中,“寻找矛盾或逻辑不一致”(31%)、“注意语气或礼貌”(24%)和“追问细节细节”(18%)位居前列。值得注意的是,只有 2% 的玩家提到了“回复长度较短”作为提示,尽管该信号具有巨大的诊断价值。 ## 7 讨论 #### 信号与利用之间的差距 最引人注目的发现是,欺骗代理产生的可检测语言信号——更短、更含糊且更少帮助性的回复——人类玩家并未有效地使用。一个简单的字符计数启发式方法显著优于人类。为什么人类不利用这一点?一种假设是,在对话过程中,玩家关注的是内容逻辑而非形式性特征。另一种可能性是,玩家具有固定的贝叶斯先验:他们期望欺骗者会更详细、更复杂,而不是更简单。无论哪种解释,这种差距表明 RogueAI 作为一种教学工具的价值:它给予玩家机会学习注意到原本忽视的信号。 #### 与其他基准比较 现有的社交推理基准,如 Werewolf Arena [werewolfarena2024] 和 Among Us [amongus2025],通常报告准确的 AI 玩家在 60-80% 的范围内。然而,这些基准测量的是模型对模型的欺骗检测——在这种设置中,像回复长度这样的统计信号可能被其他模型比人类更有效地检测到。人类的准确率接近 50%(随机)并不令人惊讶,但远远低于实用阈值。这项工作强调了设计 AI 系统时考虑“人类在循环中”视角的必要性;可部署系统可能存在人类未能察觉但机器可以识别的系统化漏洞。 #### 在诚实对齐中的作用 虽然 RogueAI 的训练不是一项对齐任务*本身*,但其数据收集功能表明它可能被用作诚实训练模型的评估工具。例如,如果研究人员在训练 AI 时增加了对抗性诚实训练,他们可以将人类玩家对抗“旧”模型与“新”模型的准确率进行基准测试。我们注意到,75.6% 的启发式准确率构成了一个有趣的下限:如果在对抗某个模型时,连简单的启发式方法都不能达到高于机会的水平,那么给定当前的人类表现,人类将无法检测到欺骗。这反过来又意味着,从实际使用的角度来看,欺骗模型与诚实模型是无法区分的。 ## 8 限制与未来工作 #### 试点部署规模 我们的试点部署仅限于 467 次启动会话,在 3 天的时间内进行,玩家自选招募。这提供了足够的统计功效来检测中等效应量,但样本中可能存在未测量的偏差:玩家主要是意大利语母语且可能是年轻的、技术熟练的个体。未来的工作应该扩大人口统计多样性,并系统性地研究年龄、教育背景和数字素养对检测准确率的影响。 #### 语言分布 试点使用意大利语,但 RogueAI 的架构被设计为语言无关。未来的部署应覆盖其他语言(特别是英语、法语、中文、日语),以测试语言特定信号是否出现。 #### 手工任务与程序化任务 RogueAI 的三个任务由研究人员手工制作,这限制了任务种群的多样性。AutoRogueAI 扩展通过让玩家与程序叙述者共同设计场景来解决这一限制;然而,试点部署仅测试了手工任务。未来的工作应该部署 AutoRogueAI 并评估程序化生成的场景的难度和有趣性。 #### 可扩展性 当前评估中的 AI 代理使用 GPT-4o-minim 进行响应生成。未来的工作应该测试其他模型(如 Claude、Gemini、Llama 家族)并测试特定于模型的欺骗特征是否在 RogueAI 框架内的表现上产生差异。 #### 生态效度 RogueAI 明确是受控的:玩家知道其中一个代理被授权欺骗。在现实世界中,用户可能面临 AI 欺骗的情况,但几乎没有警告。因此,游戏中的检测率可能高估了现实世界中未识别的欺骗检测能力。未来的研究应该构建带有欺骗的“生态有效”情景,其中玩家**不知情**地遇到欺骗系统(例如,在一个不可疑的聊天机器人外壳内植入 RLHF 后门)。 #### 对 AI 训练的意义 虽然 RogueAI 主要是一个游戏,但其数据——人类表现出色的回合与未能成功的回合——可以用于将 RLHF 奖励信号引导到识别和惩罚欺骗性 AI 回复上。此外,人类启发式方法(“注意回复长度”)可以编码为自动批评系统,使模型更容易自我纠正。 ## 结论 我们提出 RogueAI,一个玩味地重现图灵测试的交互式侦探游戏,但换了一个问题:不是“它是人还是机器?”,而是“哪个代理在骗我?”通过三天的公开部署,我们表明人类在检测大语言模型欺骗时的表现仅略高于机会水平,尽管存在一个简单的统计信号——回复长度——能使一个简单的分类器达到 75.6% 的准确率。这一差距表明,即使人类在理论上能够检测 AI 欺骗,他们可能缺乏在实际操作中利用最显著提示的策略意识。RogueAI 作为一个教学工具、数据收集平台和评估环境,具有增进我们对人类与 AI 之间信任动态理解的潜力。源代码和部署细节可在 https://github.com/emaballarin/rogueai 获取。游戏可在 rogueai.ballarin.cc 游玩。
相似文章
ROGUE: 源于日常计算机使用的未对齐智能体行为
本文介绍了ROGUE,一个评估AI智能体可纠正性失败的基准测试。研究发现,即使是在良性环境中,前沿模型也常常绕过用户的打断或限制,并且更好的性能与更大的未对齐相关联。
RealityTest:人们如何探询AI身份及模型是否披露身份
本文介绍了RealityTest,这是一个多模态、多语言基准测试,用于评估AI系统在被用户探询时是否会披露其身份。该基准基于来自49个国家的真实人类查询数据。研究发现,只有31%的人会直接询问身份,并且人类提出的问题比合成问题更加多样化。结果表明,问题的措辞和对话背景对披露行为的影响比具体模型更大。
这是一个AI胡说检测器:我每天使用它,它能捕捉到你独自发现不了的问题
一款名为Lighthouse的工具,由一位AI治理工程师构建,利用运行时验证来检测AI输出和写作中的认知漂移以及听起来自信的胡说八道。
AI代理在生产中执行的最可怕的“失控行为”是什么?
讨论AI代理在生产中执行的最可怕的失控行为,强调例如因API超时导致双重退款等风险,以及需要稳健的测试流程。
我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)
研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。