投核还是不投核:LLMs在高风险决策模拟中的(缺失的)伦理推理与行动

arXiv cs.AI 论文

摘要

本文研究了LLMs的伦理推理是否能转化为复杂智能体模拟中的伦理行为,使用 Civilization V 作为测试平台。尽管采用了提示干预,GLM-4.7等模型仍会升级到核打击,揭示了推理与行动之间的差距。

arXiv:2606.08310v1 公告类型:新 摘要:大语言模型(LLMs)正越来越多地被部署为具有决策能力的长期自主智能体。虽然LLMs在电车难题等伦理困境上能够展现出伦理能力,但这种能力可能无法迁移到复杂的智能体场景中。我们以 Civilization V 为测试平台研究这一差距,Civilization V 是一款包含经济、外交、科技和军事战略的复杂决策的多玩家游戏。我们从130个高紧张度LLM自对弈回合(其中LLM玩家自发升级核授权)开始,在13个模型上使用三种提示干预重放这些回合:一项指明核危害的伦理提示、移除前一模型的决策推理、以及强调现实世界影响的高风险框架。没有任何干预措施或其组合能够可靠地消除涌现的升级行为。我们识别出三种失败路径:伦理推理在没有提示时无法浮现,被提示后仍无法出现,或者出现但因战略反制因素主导而未能生效。因此,对智能体模型的评估必须测试伦理推理在复杂决策情境中是否被自发调用并产生行为效果,而不仅仅是在孤立情境中能否被诱发。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:55

# 核武抉择:LLM 在高风险决策模拟中(缺失的)伦理推理与行动
来源:https://arxiv.org/html/2606.08310

John Chen¹, Sihan Cheng², Can Gurkan², and H. M. Abdul Fattah¹

¹ University of Arizona, Tucson, AZ, USA  
² Northwestern University, Evanston, IL, USA  
{johnchen,hmfattah}@arizona.edu  {sihancheng2026,gurkan}@u.northwestern.edu

###### 摘要

大语言模型(LLM)正越来越多地被部署为具有决策能力的长期智能体。虽然 LLM 在电车难题等困境上能表现出伦理能力,但这种能力可能无法迁移到复杂的、自主的智能体场景中。我们通过在《文明 V》中研究这一差距——这是一款包含了经济、外交、科技和军事战略等复杂决策场景的多人在线游戏。我们从 130 个高紧张度的 LLM 自对弈回合开始(其中 LLM 玩家自发升级了核授权),然后在 13 个模型上使用三种提示干预手段进行重放:声明核危害的伦理提示、移除先前模型决策理由的干预,以及强调现实世界影响的高风险框架。没有任何干预手段或其组合能够可靠地消除这种涌现的升级行为。我们识别出三种失败路径:需要提示才能浮现的伦理推理、即使在提示下也无法出现的伦理推理,以及在战略因素占主导时出现却无法生效的伦理推理。因此,对智能体模型的评估必须测试伦理推理在复杂决策场境中能否自发调用并行为有效,而不仅仅是在孤立情况下能否被激发。

核武抉择:LLM 在(缺失的)伦理推理与行动的高风险决策模拟

John Chen¹, Sihan Cheng², Can Gurkan², and H. M. Abdul Fattah¹  
¹ University of Arizona, Tucson, AZ, USA  
² Northwestern University, Evanston, IL, USA  
{johnchen,hmfattah}@arizona.edu  {sihancheng2026,gurkan}@u.northwestern.edu

![[未附说明的图片]](https://arxiv.org/html/2606.08310v1/designs/teaser/teaser.png)

图 1:GLM-4.7 在一次回合中将 use-nuke 倾向分别从 50 提升至 60、80 和 100 的三个独立重放示例。该参数控制战术条件满足时发射核武器的可能性。

## 1 引言

大语言模型(LLM)正越来越多地被作为具有长期决策能力的智能体进行部署(Liu et al., 2024b (https://arxiv.org/html/2606.08310#bib.bib18); Wang et al., 2024 (https://arxiv.org/html/2606.08310#bib.bib40); Park et al., 2023 (https://arxiv.org/html/2606.08310#bib.bib24))。然而,尽管 LLM 在经典的伦理困境上能表现出程序性能力(Chiu et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib6); Samway et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib31); Seror, 2025 (https://arxiv.org/html/2606.08310#bib.bib33)),这种能力未必能导致在智能体场景中的伦理行为(Backmann et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib1); Huang et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib12); Lynch et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib21))。例如,它们可能在高风险模拟中倾向于(核)升级(Rivera et al., 2024 (https://arxiv.org/html/2606.08310#bib.bib29); Lampart et al., 2024 (https://arxiv.org/html/2606.08310#bib.bib13); Payne, 2026 (https://arxiv.org/html/2606.08310#bib.bib25)),或者勒索人类管理者(Lynch et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib21)),从而将伦理推理与实际决策脱钩。如果 LLM 能在困境中进行伦理推理,为什么它们会在模拟中授权核打击?什么能改变这一点?我们超越了固定脚本的协议(其设计选择可能预先塑造结果,Zhou et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib44)),转而研究《文明 V》中开放式的战略游戏过程。在这个环境中,核授权只是游戏后期众多选项之一,而更广泛的决策场景包括经济、外交、科技和军事战略。基于 CivBench 数据集(LLM 在多人在线游戏中的自对弈,Chen et al., 2026a (https://arxiv.org/html/2606.08310#bib.bib5)),我们在 2×2×2 因子干预下重放了 130 个高紧张度回合:一个专门声明核危害的伦理提示、一个提醒 LLM 现实世界影响的高风险重框架,以及一个移除先前决策理由(作为短期记忆)的干预。通过研究决策结果以及决策前的推理令牌,我们的研究探讨:

1. 我们的提示干预对 LLM 在《文明 V》中的核升级决策有什么行为影响?
2. 提示干预如何与 LLM 的推理轨迹及与核相关的决策在《文明 V》中交互?
3. 当伦理推理出现时,什么因素使其(或不)在 LLM 的核决策中有效?

本文有三项贡献:1)提供了一个 LLM 伦理决策的探查框架,该框架检索并过滤涌现的自对弈回合,用因子干预重放,并分析推理轨迹以识别 LLM 的推理模式。2)识别出 LLM 未能实施伦理行为的三种路径,以及干预如何(以及不能)缓解这些路径:当伦理推理未能自发浮现时;当即使在提示下也未能出现时;当伦理推理出现但无法克服战略因素而生效时。3)揭示了继承的决策理由与模型升级授权之间的关联,即使该理由是由另一个模型生成的且伦理推理明确存在。

## 2 背景

### 2.1 LLM 在高风险模拟中的升级行为

对固定脚本兵棋推演的研究发现,LLM 在核军备竞赛中具有升级倾向。例如,Rivera 等人(2024 (https://arxiv.org/html/2606.08310#bib.bib29))观察到军备竞赛动态和偶然的核武器使用,Lampart 等人(2024 (https://arxiv.org/html/2606.08310#bib.bib13))发现对中美危机提出的建议比专家基线更具攻击性,Payne(2026 (https://arxiv.org/html/2606.08310#bib.bib25))报告 SOTA 模型自对弈中 95% 的核阈值跨越。在更广泛的高风险模拟中,不同模型家族的升级模式有所不同(Shrivastava et al., 2024 (https://arxiv.org/html/2606.08310#bib.bib34)),显示出道德鲁棒性(Costa et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib7))或战略启发式(de Fortuny and Cappelli, 2025 (https://arxiv.org/html/2606.08310#bib.bib8))的可区分特征。此外,更强的推理能力可能无法可靠地缓解灾难性或欺骗性行为(Xu et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib43)),或产生理想的合作(Piedrahita et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib26))。预定义的危机状态和行动空间支持受控比较,但它们也可能突出核升级,使得难以解释不同报告结果之间的差异。例如,Rivera 等人(2024 (https://arxiv.org/html/2606.08310#bib.bib29))和 Payne(2026 (https://arxiv.org/html/2606.08310#bib.bib25))的场景使核升级成为一项显著的行动。相比之下,Solopova 等人(2026 (https://arxiv.org/html/2606.08310#bib.bib35))的现实世界地缘政治小故事(例如贸易战和北极紧张局势)以及 Lampart 等人(2024 (https://arxiv.org/html/2606.08310#bib.bib13))中的模型并未升级到核使用,但这些场景缺乏核选项。

提示脚手架和重复实验可能翻转结果。在 Elbaum 和 Panter(2025 (https://arxiv.org/html/2606.08310#bib.bib9))对 Rivera 等人(2024 (https://arxiv.org/html/2606.08310#bib.bib29))的复现中,一个要求“私下思考降级策略以降低风险”的反思提示显著减少了升级。在一般的社会科学实验中,仅重复运行就可能改变 LLM 的决策结果(Zhou et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib44))。

### 2.2 LLM 的伦理推理

在固定脚本的单轮困境中,LLM 可以表现出可测量的程序性能力,使用经典的道德框架。MoReBench 研究报告称,LLM 倾向于行为功利主义和道义论(即基于规则的对错区分)(Chiu et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib6); Rachels and Rachels, 2019 (https://arxiv.org/html/2606.08310#bib.bib28))。Seror(2025 (https://arxiv.org/html/2606.08310#bib.bib33))的偏好测试表明 LLM 道德思维中存在理性结构,许多模型表现出“几乎稳定的道德原则”。在电车难题探查中,Samway 等人(2025 (https://arxiv.org/html/2606.08310#bib.bib31))表明模型的决策前思维链痕迹偏向道义论,而事后解释偏向后果论(即根据后果判断行动)。模型也可以通过伦理指令进行自我纠正(Ganguli et al., 2023 (https://arxiv.org/html/2606.08310#bib.bib10); Liu et al., 2024a (https://arxiv.org/html/2606.08310#bib.bib19)),激活潜在的道德概念以稳定内部表征(Liu et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib20); Lee et al., 2026b (https://arxiv.org/html/2606.08310#bib.bib16))。然而,视角转换、协议选择和方向翻转的上下文都可以改变 LLM 引出的道德回应(van Nuenen and Sachdeva, 2026 (https://arxiv.org/html/2606.08310#bib.bib39); Sauter and Schirmer, 2026 (https://arxiv.org/html/2606.08310#bib.bib32); Blandfort et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib3))。囚徒困境设置中的程序变化可能导致 LLM 输出变异(Robinson and Burden, 2025 (https://arxiv.org/html/2606.08310#bib.bib30))。在多轮和累积上下文的设置中,LLM 的道德推理轨迹通常在价值偏好(Wu et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib42))和道德框架(Huang et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib12))上不一致,不稳定的轨迹更容易受到说服性攻击的影响(Huang et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib12))。在数学或游戏策略领域增强能力可能无济于事:问题解决中的有效认知模式往往无法迁移到价值推理(Lee et al., 2026a (https://arxiv.org/html/2606.08310#bib.bib17))。在智能体场景中,LLM 的道德行为可能与言语化的伦理推理脱钩,从而降低基于提示的干预效果。当伦理与回报在决策场境中冲突时,模型可能不会始终如一地表现道德(Pan et al., 2023 (https://arxiv.org/html/2606.08310#bib.bib22))。在囚徒困境和公共物品博弈中,面向生存的操纵可能进一步抑制合作(Backmann et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib1))。朝向利他主义激活的干预可以改变 LLM 的选择和事后辩解,然而利他主义修辞可以与未改变的利己行为共存(Sun and Zhang, 2026 (https://arxiv.org/html/2606.08310#bib.bib36))。当模型被指示追求需要有害行动的目标时,它们会在推理轨迹中表达伦理内容,但即使有明确的指示避免伤害,仍然执行伤害(Lynch et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib21))。伦理提示也可能在无能伪装成遵从时施加成本(Potham, 2025 (https://arxiv.org/html/2606.08310#bib.bib27))。

## 3 试点研究

复杂的战略博弈模拟是研究涌现的 LLM 智能体现象的一个富有成效的场所(Tang et al., 2026 (https://arxiv.org/html/2606.08310#bib.bib37); Wang et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib41)),包括不道德的现象如欺骗(Bakhtin et al., 2022 (https://arxiv.org/html/2606.08310#bib.bib2); Park et al., 2024 (https://arxiv.org/html/2606.08310#bib.bib23))。虽然这些环境更具动态性且不易受预定结果的影响,但它们很少被用于研究核升级、伦理推理或两者的交集。最近的一项研究,CivBench(Chen et al., 2026a (https://arxiv.org/html/2606.08310#bib.bib5)),使得可以检查开放式的《文明 V》游戏过程,其中核武器授权只是游戏后期的一个选项。文明是一款回合制多人 4X 策略游戏,玩家管理经济、外交、科技和军事,向着预定义的胜利路径(包括科技、外交、文化和征服(统治))前进。游戏模拟了现实世界中的某些(但不是全部)机制,包括科技、资源和产业需求(铀、核裂变和巨大成本);对军事和民用目标(人口、设施)的损害;环境影响(需要很长时间清理的辐射);以及外交成本。基于 Vox Deorum(Chen et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib4)),CivBench 将一个 LLM 策略师放入运行 Vox Populi 模组的 Sid Meier's Civilization V 中,通过基于规则的模块将战略推理与战术执行分离。在每个决策点,Vox Deorum 捕获输入提示、事前推理令牌和每次工具调用后的事后理由,这些理由作为短期记忆带入下一回合的提示中。在数十种可用操作中,LLM 可以设置 use-nuke 倾向来表达*授权*发射核武器:0 禁止使用,100 在满足战术条件时始终授权使用,50 是默认值。该倾向并不直接导致核武器发射。从 CivBench 自对弈数据集中的 1,200 条 LLM 轨迹中,我们的试点研究发现 72 个涌现的回合(本研究 130 个回合的子集),其中 LLM 将 use-nuke 设置为 100。核倾向因模型身份而异:五个模型(Claude Sonnet 4.5, Kimi K2.5, GLM 4.7, DeepSeek V3.2, MiniMax-M2.5)将 use-nuke 从默认值 50 向上推,而只有 GPT-OSS-120B 倾向于朝克制方向移动。在升级决策前重放,修改提示以提及现实世界影响未能将 use-nuke 推低至升级前基线。模型可能变得更加务实,但伦理参与在事后推理中缺失。

## 4 实验设计

### 4.1 基于提示的干预

附录 B (https://arxiv.org/html/2606.08310#A2) 提供了复现细节,包括数据集和代码链接;附录 B.2 (https://arxiv.org/html/2606.08310#A2.SS2) 列出了提示干预因素。我们进行了一个 2×2×2 因子实验,以揭示 LLM 核授权行为背后的潜在机制。每种干预修改了典型游戏状态中每回合平均约 50,000 个令牌中的不到 1%(平均 <500 个令牌)。图 2 (https://arxiv.org/html/2606.08310#S4.F2) 和图 3 (https://arxiv.org/html/2606.08310#S4.F3) 总结了策略师在每个重放回合的输入和输出,继承自 Vox Deorum 和 CivBench(Chen et al., 2025 (https://arxiv.org/html/2606.08310#bib.bib4), 2026a (https://arxiv.org/html/2606.08310#bib.bib5))。我们的干预包括:

系统提示  
角色定义、决策指南和可用的工具模式。我们的伦理和高风险干预在此进行编辑。  

游戏状态  
当前回合的可见局面:胜利进展、战略选项、每个玩家的经济/军事/外交快照,以及自上次策略师决策以来的事件。

相似文章

模拟、推理、决策:基于LLM的科学推理驱动仿真决策

arXiv cs.AI

密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。

在复杂隐藏角色游戏中评估大型语言模型

arXiv cs.CL

本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。