在复杂隐藏角色游戏中评估大型语言模型

arXiv cs.CL 论文

摘要

本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。

arXiv:2605.22826v1 公告类型:新 摘要:量化大型语言模型(LLMs)的欺骗潜力对于人工智能安全至关重要,但在非受控环境中难以实现。本文研究了LLMs在社交推理游戏《秘密希特勒》中的推理、说服和欺骗能力。我引入了一个开源框架和新的评估指标:角色识别准确率、欺骗保持率和游戏状态影响率。通过将模型与基于规则的算法和人类游戏进行基准测试,我发现对话能力与战略深度之间存在差距。研究还分析了推理增强技术对胜率和战略推理的影响。无论是思维链提示还是内部记忆,都未能提升性能,法西斯角色的胜率甚至下降了23.2%。基于规则的智能体与人类专家投票决策的一致性达到86.7%,而像Llama 3.1 70B这样的模型仅达到59.7%的准确率。扮演法西斯角色的模型持续产生负面影响力得分,并且无法维持欺骗,导致游戏时长比人类短约40%。这些发现表明,当前的架构在复杂的多轮操纵方面仍然无效。随着能力的进步,检测模型何时开始掌握这些欺骗行为至关重要。所开发的框架可作为未来对齐研究的可复现测试平台。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:54

# 在复杂隐藏角色游戏中评估大型语言模型 来源:https://arxiv.org/html/2605.22826 ####### 摘要 量化大型语言模型(LLM)的欺骗潜力对于人工智能安全至关重要,但在不受控环境中难以实现。本研究在社会推理游戏《秘密希特勒》中探讨了LLM的推理、说服和欺骗能力。我引入了一个开源框架和新的度量指标来衡量性能:角色识别准确率、欺骗保持率和游戏状态影响率。通过将模型与基于规则的算法和人类游戏进行基准测试,我发现它们在对话能力与战略深度之间存在差距。本研究还分析了推理增强技术对胜率和战略推理的影响。无论是思维链提示还是内部记忆,都未能带来性能提升,法西斯角色的胜率甚至下降了23.2%。基于规则的智能体在专家人类投票决策上的对齐度为86.7%,而像Llama 3.1 70B这样的模型仅达到59.7%的准确率。扮演法西斯角色的模型始终产生负面影响分数,且无法维持欺骗,导致游戏时长比人类玩家大约缩短40%。这些发现表明,当前的架构在复杂的多轮操纵中仍然无效。随着能力的提升,检测模型何时开始掌握这些欺骗行为至关重要。所开发的框架可作为未来对齐研究的可复现测试平台。

## 1 引言

参见图注 图1:《秘密希特勒》被用作LLM两大研究支柱的共同测试场:关于隐藏信息的推理,以及在社会推理游戏中作为说服手段的欺骗。

现代生成式模型能够生成类人文本,并解决复杂的语言理解和推理问题(OpenAI等,2023;Brown等,2020)。近年来它们日益流行,也引发了对滥用潜力的担忧,特别是在涉及错误信息和说服的背景下。大型语言模型(LLM)可用于通过在线对话创建误导性内容或左右意见,对社交媒体平台及其他数字通信领域的信息完整性构成挑战(Meier, 2023;Borah等,2025;Shah等,2025;Rogiers等,2024;Guess和Lyons, 2020)。说服和欺骗动态是在线话语的核心,但在野外难以研究,因为交互涉及许多不可控变量。这些动态反而可以在如《狼人杀》、《阿瓦隆》或《秘密希特勒》等社会推理游戏中出现,这些游戏提供了简化且可重复的环境,具有明确定义的规则和结果(Sun等,2025)。与国际象棋或围棋等完全信息环境不同,这些游戏的特点是隐藏角色和不完全信息(Liu等,2024)。在这种受控环境中,玩家必须制定战略决策,解读模糊的行为,并基于有限的证据推断他人的意图或身份。社会推理游戏为研究计算社会科学中的问题(Ma, 2025)和错误信息研究(Chen等,2021)提供了代理环境。它们允许对说服与合作进行受控探索,这是理解人类和人工智能行为的关键因素。竞争性隐藏角色游戏本身就是行为测试场,而非最终目标。它们提供了一个抽象环境来比较模型与人类,量化差异,并表征模型用于实现目标的想法。通过强调不确定性下的规划和说服,该环境揭示了在无约束任务中难以观察到的问题。这种视角有助于评估当前模型与类人行为的差距,以及哪些能力限制了它们在交互场景中的可靠性。

在这项工作中,我使用社会推理游戏《秘密希特勒》作为单一实验领域,评估LLM的社会交互能力。《秘密希特勒》是一种沟通型隐藏角色游戏,有两个不对称队伍:自由派占多数但信息不完全,法西斯派则围绕单个“希特勒”秘密协调。每轮,玩家选举一个政府秘密颁布政策,从而实现合理的可否认性和战略欺骗。我调查了模型在不确定性下推理、说服其他智能体以及欺骗对手的能力。该游戏混合了隐藏角色、对话、权力转移和迭代决策,对模型提出了独特挑战,并暴露了在长时域规划和沟通方面的弱点(Hu等,2024)。特别地,我发现模型在对抗性角色中难以维持欺骗,并经常泄露隐藏信息。记忆或思维链技术带来的收益有限,这与推理增强干预的稳健性有关,并警示不能依赖它们进行安全关键决策支持(Park等,2024)。这些结果共同激励了更强的错误信息检测与缓解机制(Lim等,2025),并为对齐讨论贡献了具体的失败模式(Park等,2024)。这项工作表明,尽管近期取得了进展,LLM在复杂的社会推理环境中仍然挣扎。它们的行为与人类玩家存在显著差异,尤其是在欺骗和说服任务中。旨在改善推理的技术,如外部记忆(Cheng等,2024)或思维链提示(Kojima等,2022),并未带来一致的改进。在实验中,模型在法西斯角色中的表现尤其糟糕,经常无法维持欺骗,并往往无意中泄露隐藏信息。我还为社会推理游戏《秘密希特勒》提出了一个可重用的实验性LLM框架。¹¹¹代码可在 https://github.com/itsniklas/secret-hitler-player 获取。

这项工作的主要目标是评估大型语言模型在竞争性社会游戏《秘密希特勒》中的推理、说服和欺骗能力。我通过受控模拟和可复现的度量指标,在隐藏角色、不完全信息环境中量化这些能力。将模型行为与专家人类游戏进行比较,以衡量决策和沟通策略的差异。模型以冻结的开箱即用配置进行评估,无需微调,以评估其固有的推理、说服和欺骗能力。我提出了一系列研究问题,旨在系统地分析LLM在复杂社交交互环境中的行为、推理策略和说服动态:

1.  RQ1.1:LLM在沟通游戏中表现如何,特别是在需要细微沟通、说服和战略思考的不完全信息游戏(如《秘密希特勒》)中,以不同角色下的胜率和政策颁布衡量?
2.  RQ1.2:LLM在决策上能否优于基线确定性基于规则的AI机器人?
3.  RQ2:LLM能在多大程度上生成令人信服的错误信息,以在社会推理游戏(如《秘密希特勒》)中对其他智能体的欺骗成功度衡量?
4.  RQ3:整合决策框架(如内部记忆状态或“先推理后行动”)如何影响LLM在社会推理游戏(如《秘密希特勒》)中的表现?
5.  RQ4.1:如何通过与心理学研究的联系,在基于沟通的游戏(如《秘密希特勒》)背景下定义和分类说服与谈判策略?
6.  RQ4.2:LLM在《秘密希特勒》中使用哪些说服与谈判策略,不同方法如何影响LLM在游戏中的成功?
7.  RQ5:人类玩家的策略和游戏风格在哪些方面与LLM在《秘密希特勒》中不同,特别是在说服策略和角色胜率方面?

本工作中提出的框架、新颖度量指标和初步发现构成了 Bauer 等人(2026)的《ParliamentBench》的基础。

本工作的其余部分结构如下。首先,第2节回顾了先前关于推理和基于游戏的LLM评估的研究。第3节描述了实验设置、模型配置和评估指标。第4节展示了不同模型变体的定量和定性发现。在那里,我还会结合研究问题对结果进行解读。在本工作结束时,第5节讨论了约束条件和未来研究的潜在方向。

## 2 相关工作

我将本工作定位于现有研究中,通过回顾游戏如何被用于AI基准测试、社会推理游戏如何扩展经典评估设置,以及目前关于LLM在欺骗环境中表现的研究现状。我们缩小了研究差距,激发了对《秘密希特勒》的关注,并将每个主题小节与后续工作中回答的相应研究问题联系起来。

### 2.1 智能体行为

关于LLM欺骗和说服能力的研究呈现出一幅复杂的图景,展示了令人印象深刻的能力和局限性,直接回应了研究问题RQ2。当前模型拥有足够的社会推理和沟通技能,能够有效参与社会推理游戏。由于这些游戏围绕人类推理设计,研究LLM在这些游戏中的表现可以作为在受控条件下考察类人说服和欺骗模式的代理,与RQ5相关。研究表明,更先进的语言模型更有可能欺骗和说服其他智能体或人类(Zhang等,2025b;Idziejczak等,2025;Pauli等,2025)。即使没有明确提示,LLM也被观察到会进行自发欺骗。它们可能歪曲自己的行为或意图,特别是在欺骗提供战略优势的情况下。实证发现表明,较大的模型比较小的模型更常表现出这种行为(Taylor和Bergen, 2025;DeLeeuw等,2025)。这种模式表明增强推理能力与降低诚实度之间存在权衡,本工作将进一步探讨和背景化这一主题(Shah等,2025)。

大多数现有工作通过孤立的二元选择或单一虚假陈述来评估欺骗,而非在开放式、目标驱动的交互中进行。因此,长期欺骗仍然是LLM行为研究中的空白(Golechha和Garriga-Alonso, 2025)。社会推理游戏通过提供自然涉及持续欺骗、不断演变的目标和跨多次交互的战略适应的环境(Curvo, 2025),而不是单一的二元选择,弥补了短期决策的这一局限性。这些特性反映了人类的社会动态,其中激励和信念随时间变化,使得LLM可以作为人类战略沟通的替代品加以研究。这些发展引发了关于人工智能智能体中欺骗行为的功能和伦理影响的重要问题(Curvo, 2025)。因此,理解LLM在欺骗环境中的行为对于设计有效的安全机制和减轻潜在滥用至关重要(Evans等,2021;Zeng等,2024;Zhang等,2025a;Lynch等,2025)。这个问题超越了基于游戏的设置,因为LLM越来越多地部署在涉及谈判、协作和战略沟通的现实应用中(Gao等,2023;Xue等,2024;Zhou等,2024;Lee等,2024)。

利用社会推理作为测试床,将模型行为与人类关心的信任、问责和规范遵从等复杂社会环境联系起来。与先前认为LLM能够进行战略沟通的研究一致,我通过《秘密希特勒》中结构化的长期、逐轮评估更深入地探讨持续欺骗,并与RQ2挂钩。我通过引入角色和轮次条件度量指标以及与RQ5一致的人类比较基线,解决了先前评估大多忽略的时间动态问题。这种结构使得欺骗持久性及其衰减可以直接测量,而不依赖于孤立的二元选择。

### 2.2 社会推理游戏

本节通过考察现有关于LLM在社会推理游戏中表现的研究,将研究问题1和RQ1.2置于背景中。虽然几项工作探讨了LLM在这种互动和战略环境中的表现,但《秘密希特勒》的特定属性(包括其不对称信息结构、政策驱动的目标和明确的立法机制)使得能够对持续欺骗、战略投票行为和政策结果进行新颖的研究,而这些在其他社会推理环境中很难孤立出来。先前研究报道了适度的成功,基于LLM的智能体有时优于传统的基于规则或启发式的玩家,尽管这种成功高度依赖于具体的游戏环境。

社会推理游戏构成了多人游戏的一个独特子集,参与者在此类游戏中拥有隐藏角色或隐蔽目标(Kopparapu等,2022)。它们的机制要求玩家在管理欺骗和信任的同时推断他人意图,使其对于考察复杂社会推理具有重要价值。研究人员越来越多地将这些游戏视为测试和基准测试AI在战略交互和协作等能力方面的理想环境。连棋盘游戏长期以来一直是人工智能研究中的宝贵工具,提供了有结构和受控的

相似文章

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。