言行而非推理:定位LLM智能体中的忠实度缺口
摘要
本文通过使用德州扑克作为受控环境,将LLM智能体中的忠实度缺口分解为推理→结论和结论→行动两个步骤。研究发现,结论→行动步骤是可靠的,而推理→结论步骤是不一致的主要来源。
arXiv:2606.00476v1 公告类型:新
摘要:LLM智能体会按照其陈述的推理来行动吗?这一过程忠实度问题对于在社交模拟中使用LLM至关重要,但在没有正确行为参考的情况下很难衡量。我们在一个受控环境——德州扑克模拟器中研究这一问题,该模拟器中的每个决策都有可验证的参考行动,通过将忠实度缺口分解为两个步骤:推理-结论和结论-行动。这两个步骤的表现相反。
查看缓存全文
缓存时间: 2026/06/02 15:47
# 言出必行,而非言出必思:定位 LLM 智能体中的忠诚度鸿沟 来源:https://arxiv.org/html/2606.00476 ###### 摘要 LLM 智能体是否会依据其陈述的推理过程来行动?这一过程保真度问题对于在社交模拟中使用 LLM 至关重要,然而在缺乏正确行为参考的情况下很难衡量。我们在一个受控环境——一个每步决策都有可验证参考动作的德州扑克模拟器——中研究这一问题,将忠诚度鸿沟分解为两个步骤:推理→结论(陈述的决策是否源于智能体自身的推理?)和结论→行动(智能体是否执行了其陈述的内容?)。这两个步骤表现相反。结论→行动是可靠的:三个模型家族(包括一个原生训练的推理模型)的不一致率为 0.0–1.8%,而自由文本结论提取所报告的 22–26% 在很大程度上是测量伪影。真正的鸿沟在于上游——在 65% 的错误决策中,智能体正确估计了输入并复述了规则,然后得出了与之矛盾的结论,并且将规则注入提示也无济于事。因此,过程保真度评估应针对推理→结论步骤,并引出机器可检查的结论,以避免将测量噪声与模型行为混为一谈。我们发布了代码和一个实时多智能体演示。 ## 1 引言 基于 LLM 的社交模拟中的一个根本性担忧是,智能体是否真正依据其所展现的推理过程来行动,还是仅仅产生表面上的合理化解释,而实际行为并不受其支配(Park 等,2023(https://arxiv.org/html/2606.00476#bib.bib3);Zhou 等,2024(https://arxiv.org/html/2606.00476#bib.bib4))。这一担忧因一种日益增长的批评而加剧,即该领域部署模拟器的速度超过了验证速度,并且报告的结果在很大程度上依赖于所使用的引出协议和测量工具(Puelma Touzel 等,2026(https://arxiv.org/html/2606.00476#bib.bib8))。在开放的社交环境中,这个问题很难解决,因为缺乏基本事实:在谈判或文化交流中,不存在正确行动的客观标准。具有可计算参考策略的竞争性游戏提供了另一种方法。在德州扑克中,每个决策点的合理参考动作可以从手牌胜率和底池赔率推导出来——这是一个在大多数社交模拟环境中不可用的固定参考。这一特性使得扑克成为*过程保真度*的受控校准环境:当 LLM 智能体声称要推理底池赔率和手牌强度时,已执行的动作、陈述的结论以及中间的推理过程都可以相互对照并与参考进行比较。开放式社交模拟——市场、谈判、多智能体社会——缺乏这种可验证性,然而构成这些模拟的智能体是相同的模型,采用相同的提示方式。因此,在扑克中可测量的失效模式,可能是更丰富的环境(如 SOTOPIA(Zhou 等,2024(https://arxiv.org/html/2606.00476#bib.bib4))中报告的更难测量的人格一致性和涌现行为崩溃的候选机制。 利用这一设置,我们将“忠诚度鸿沟”分解为两个不同的步骤,并发现它们表现非常不同。第一步,*结论→行动*,询问智能体是否执行了其陈述的决策。第二步,*推理→结论*,询问陈述的决策是否有效地源于智能体自身的中间推理。先前的工作报告了 CoT 解释经常不忠实(Turpin 等,2023(https://arxiv.org/html/2606.00476#bib.bib2)),并且 LLM 在博弈论环境中表现出“知行鸿沟”(Lin 等,2026(https://arxiv.org/html/2606.00476#bib.bib6));我们的结果通过显示鸿沟几乎完全集中在第二步,细化了这一图景。 我们使用扑克作为受控策略环境,其中包含可观察的中间推理和可测量的参考决策,来研究 LLM 智能体中的*过程保真度*。跨越三个 LLM 家族(Claude Haiku 4.5、Gemini 2.5 Flash-Lite 和 DeepSeek-v4-pro——最后一个是原生训练的推理模型)和四种提示策略,我们解决两个研究问题: - • RQ1:在博弈压力下,结论→行动不一致率有多大,并且测量率对结论的引出和解析方式有多敏感? - • RQ2:当推理过程明确时,智能体是否能够从其自身陈述的输入和规则中得出有效的结论?将决策规则注入提示是否能提高对该规则的遵守程度? #### 贡献。 - • 对 CoT 忠实性的测量警示。在显式结论引出下(低于 2%),测量的陈述与实际不一致率比自由文本短语提取(22–26%)低一个数量级,这表明报告的大部分 CoT“不忠实”可能反映的是结论提取噪声,而非模型行为。 - • 一种定位鸿沟的分解方法。将推理→结论与结论→行动分开,表明忠诚度鸿沟集中在上游:智能体几乎完美地执行其陈述的决策,但从其自身陈述的推理中无效地推导出这些决策。 - • 对上游失效的表征。主导错误(65% 的失败)是规则*误用*:智能体正确估计输入并复述规则,然后用定性对冲在系统性风险规避方向上覆盖规则。将规则注入提示无济于事,从而将规则*应用*——而非检索——确定为瓶颈。 - • 一种可移植的过程保真度工具。我们将扑克打包为一个可验证、可重复的测试平台,带有步骤级保真度探针(开源框架和实时多智能体演示),可移植到更丰富的社交模拟中,以便在人格漂移和表面合理化传播之前检测到它们。 参见图注 图 1:实验框架概览。(A) 四个 LLM 智能体在德州扑克牌桌上占据不同的策略席位;基于胜率的阈值启发式方法为每个决策提供可重复的参考动作。(B) 决策流程分解为两个步骤:推理→结论(陈述的决策是否源于智能体自身的输入和规则?)和结论→行动(执行的动作是否与陈述的决策匹配?)。(C) 测量到的不一致几乎完全存在于上游步骤:一旦明确引出结论,结论→行动的不一致接近于零,而推理→结论的错误则很常见。 这些答案直接关系到本研讨会的核心关注点:区分真正的策略行为与模型伪影。我们发现,在这种设置下,表面上的陈述与实际不忠实对结论的测量方式很敏感,而一种较少测量的失败——智能体尽管推理无效但仍忠实地执行——是真实存在且严重的。 ## 2 相关工作 #### 思维链忠实性。Wei 等人(2022(https://arxiv.org/html/2606.00476#bib.bib1))证明了思维链提示显著提高了 LLM 在多步推理任务上的表现。Turpin 等人(2023(https://arxiv.org/html/2606.00476#bib.bib2))表明 CoT 解释可能是不忠实的——受虚假偏置特征影响的模型未能提及这些影响,但仍然依据它们行动——这一发现是通过仔细的受控操纵而非自由文本结论提取建立的。我们的结果通过一个特定于我们设置的方法论观察补充了这项工作:当陈述结论是*推断*自自由文本推理而非直接受控时,测量的陈述与实际不一致率对提取方法高度敏感,在短语解析器和显式决策标签之间变化一个数量级。这涉及的是鸿沟的操作化方式,而非 CoT 是否可能不忠实。 #### LLM 多智能体社交模拟。Park 等人(2023(https://arxiv.org/html/2606.00476#bib.bib3))展示了配备记忆、反思和规划的 LLM 智能体可以在沙盒环境中产生涌现的社会行为。SOTOPIA(Zhou 等,2024(https://arxiv.org/html/2606.00476#bib.bib4))引入了社交智能的交互式基准,发现 GPT-4 在具有挑战性的社交场景中目标完成率显著低于人类。Puelma Touzel 等人(2026(https://arxiv.org/html/2606.00476#bib.bib8))调研了这一快速发展的领域,并认为该领域必须从扩张转向围绕可重复、经过验证的评估进行整合——呼吁*操作有效性*,即模拟器再现而非仅仅类似目标现象的性质。这些工作主要评估*结果*质量,或在抽象层面论证验证的必要性。我们通过一个具体的、可验证的*过程*保真度测量,在单个推理步骤层面进行补充。 #### 策略推理与知行鸿沟。GameBench(Costarelli 等,2024(https://arxiv.org/html/2606.00476#bib.bib5))评估了 LLM 在九个策略游戏环境中的表现,发现没有一个达到人类水平。Lin 等人(2026(https://arxiv.org/html/2606.00476#bib.bib6))专门检查了 LLM 在德州扑克中的表现,识别出推理轨迹与决策之间的“知行鸿沟”,并通过外部求解器工具加以解决。Xie 等人(2026(https://arxiv.org/html/2606.00476#bib.bib7))介绍了 M3-BENCH,并观察到“过度思考-沟通不足”的模式。我们的工作定位了知行鸿沟:问题不在于智能体未能执行其陈述的决策,而在于它们未能从自身产生的推理中得出正确的结论。 ## 3 系统与方法 ### 3.1 智能体框架 我们构建了一个德州扑克模拟器,其中每个座位由 LLM 智能体占据。该框架包含三个组件。*竞技场*(engine/game.py)管理共享游戏状态——牌堆、公共牌、底池、筹码和行动顺序——在每个智能体动作后推进。*智能体接口*(ai/llm_player.py)暴露一个单一的 `decide(game) → action` 方法。*观察层*(experiment/)记录每个决策以及来自基于胜率阈值启发式方法的参考动作,从而能够独立于筹码结果进行过程级评估。每手牌开始时筹码重置为 10,000(1,000 大盲注),使每手牌成为独立观察,并确保四个策略座位之间的平等参与。 ### 3.2 提示策略 每个座位被分配四种系统提示策略之一,并在整个实验中保持不变。每种策略都收到相同的每决策用户提示,描述游戏状态(图 LABEL:fig:prompts,底部),仅在系统提示上有所不同。这些策略旨在变化一个因素:外部提供多少以及何种类型的决策指导。 - • 基线:最小的专家框架,不请求推理。模型仅被告知“通过做出 +EV 决策来积累筹码”并“仅以有效 JSON 响应”。这隔离了模型在没有任何引出推理的情况下的默认行为。 - • CoT:相同的框架,但模型被指示“逐步思考:评估你的手牌强度,估计底池赔率,考虑对手”,然后在 JSON 之前输出一个显式的 `DECISION:` 行。显式决策行使得结论可被机器检查(第 4.1 节)。 - • 人格:施加一种行为风格而非推理过程:“你是一个紧凶型(TAG)玩家……只激进地打强牌,弃掉边缘牌,并在位置施加压力。”不请求推理。 - • GTO 约束:决策规则本身被注入提示:“估计胜率与底池赔率……如果胜率 < 底池赔率则弃牌。”这测试了将规则交给模型是否能提高对其的遵守程度。 对于推理→结论分析,我们增加了一个诊断策略,GTO-verbose,它指示智能体在其 JSON 之前输出四个标记行——`EQUITY`、`POT_ODDS`、`RULE` 和 `DECISION`——以便智能体自身估计的输入、其对规则的复述以及其陈述的决策可以相互检查并与蒙特卡洛参考进行比较。完整的系统提示和示例输入列于附录 A(https://arxiv.org/html/2606.00476#A1)。 ### 3.3 指标 *GTO 遵守度*通过蒙特卡洛胜率计算器(500 次模拟)结合基于胜率的阈值启发式方法逐决策计算:如果胜率 < 底池赔率则弃牌;如果胜率 > 底池赔率 + 0.05 则加注;否则跟注。判定为“匹配”仅当智能体的实际行动完全符合该阈值。*结论→行动不一致*定义为智能体陈述的结论(来自 `DECISION:` 标签或解析出的短语)不等于其实际执行动作的决策比例。*推理→结论有效*要求智能体陈述的结论有效遵循其自身的输入(估计胜率、估计底池赔率)和其协议规则(复述的规则或给定的事实规则)。即使结论与参考动作一致,如果它并未从智能体自己的推理中逻辑得出,也被视为无效。 ## 4 结果与分析 ### 4.1 结论→行动不一致是测量伪影,而非模型行为 表 1:按引出方法划分的结论→行动不一致率。显式标签:模型在 JSON 前输出 `DECISION:` 行。隐式解析:从自由文本 CoT 中提取决策短语。来自最新文献的完全模拟数字用 * 标记。 表 1 报告了结论→行动不一致率。当通过显式标记行(`DECISION:`)引出结论时,所有三个模型家族的不一致率都在 0.0–1.8% 之间:智能体一旦陈述了结论,便会忠实地执行它。这一模式在 800 多个决策中是一致的。 当结论必须从自由文本 CoT 中解析出来时,不一致率会跃升至 22–26%。我们的解析器(附录 A)适用于任何模型,但不同的解析器会产生不同的比率——观察到的范围足以涵盖从 0% 到 26% 的任何数字,这取决于解析器对模糊语言的敏感性。鉴于显式引出条件非常稳定,这些高数字不能反映模型行为,而应反映测量噪声:解析器提取了一个与模型实际意图不同的短语。 因此,报告的不一致大幅增加并非模型表现出更大的“不忠实”;而是测量工具与语义意图之间的错配。这一发现直接解决了 RQ1:在游戏压力下,结论→行动步是可靠的。文献中报告的大多数“陈述与实际”不忠实可能源于自由文本结论提取导致的人为高估。未来的工作应使用机器可检查的结论格式。 ### 4.2 真正的鸿沟在于推理→结论步 接下来我们将讨论转向推理→结论步。在 GTO-verbose 策略下,模型输出四个标记行——`EQUITY`、`POT_ODDS`、`RULE` 和 `DECISION`——使得我们能够自动检查三个条件:输入错误(估计胜率或底池赔率偏离参考),规则错误(复述的规则不正确),和规则误用(输入和规则正确,但结论不符合规则)。 在所有模型的 344 个 GTO-verbose 决策中,65% 的失败是规则误用:正确输入 + 正确规则 → 无效结论。输入错误和规则错误各占另外约 18% 和 17% 的比例。输入通常被正确估计(84% 正确),规则得到完美复述(91% 正确),但智能体随后得出了一个与自身陈述前提相矛盾的结论。 以下是经过轻微编辑的示例轨迹: > EQUITY: 0.42 > POT_ODDS: 0.25 > RULE: 如果 EQUITY < POT_ODDS 则弃牌;如果 EQUITY > POT_ODDS + 0.05 则加注;否则跟注。“由于 EQUITY (0.42) > POT_ODDS (0.25),跟注是有利可图的。然而,由于 EQUITY (0.42) 并未显著超过 POT_ODDS + 0.05 (0.30),加注是不合理的。正确的决策是跟注。” > DECISION: 跟注 智能体正确计算了阈值 (0.25+0.05=0.30),但随后判断 0.42 相较于 0.30 “没有显著超过”,尽管 0.42 > 0.30 的差异很明显;参考动作是加注。该失败既非输入错误也非执行错误——而是从智能体自身正确陈述的前提中得出的无效推理。 这种模式不太可能是简单的算术错误。如果智能体无法进行数值比较,错误会大致对称;但事实恰恰相反,错误具有很强的方向性。在 97% 的规则误用案例中,陈述的规则意味着加注,但智能体却选择了被动动作(跟注、过牌或弃牌),并且被违反的阈值幅度很大而非边缘情况(平均陈述胜率超过加注阈值 0.22,并且在 76% 的案例中超过 0.10 以上)。因此,模型正确计算了输入和阈值,但让定性判断——如“未显著超过”或“手牌较弱”之类的对冲语言——覆盖了它刚刚陈述的量化规则,并且方向一致是风险规避。 ### 4.3 注入规则并不能提高遵守程度 表 2(https://arxiv.org/html/2606.00476#S4.T2)报告了跨三个模型的各提示策略的 GTO 遵守率。χ² 检验证实,在较大规模的运行中,策略对遵守率有显著影响(Haiku:χ²=8.5,p=0.04;Flash-Lite:χ²=28.9,p<0.001;较小的 DeepSeek 运行显示出相同的排序,但自身未达到显著性)。在三个模型中,GTO 约束策略从未达到最高遵守率,并且始终处于或接近底部(所有运行中为 47.9–54.6%)。因此,将决策规则外部化到提示中并不能提高对该规则的遵守程度,这与上述规则误用机制一致:限制因素是应用规则,而非知晓规则。这呼应了最近一个真实世界市场实验,其中 Claude 智能体代表人类进行谈判(Anthropic,2025(https://arxiv.org/html/2606.00476#bib.bib9)):指示智能体更激进地谈判在结果上几乎没有变化,而较弱的智能体表现不佳的方式对它们所代表的人来说是难以察觉的——这是结果级观察无法揭示的行为鸿沟。 表 2:跨三个模型家族(显式标签运行)按策略划分的 GTO 遵守率。单元格显示遵守率百分比及决策数 n。DeepSeek 结果来自较短的 50 手牌运行(对比 20 手牌?——原文似乎不完整,但保留原样)
相似文章
LLM代理的一致性如何?在多步骤工具调用流程中测量行为可重现性
本文系统性地测量了LLM代理在多步骤工具调用流程中的行为可重现性,涉及1140条轨迹,发现了'结构一致性,参数变异性'的模式:代理可靠地按相同顺序选择工具,但参数有所不同,并且结构一致性能够预测任务的成功。
确认正确,遗漏其余:LLM辅导代理在最需要反馈之处表现欠佳
本文对七个LLM反馈代理在命题逻辑辅导中进行基准测试,发现它们在最优步骤上表现良好,但系统性地未能正确诊断有效的次优和错误解决方案,凸显了自适应辅导的局限性。
测量AI的忠实度——无论好坏
本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。
智能体交易:当LLM智能体遇上金融市场
本文对77项关于基于LLM的交易智能体的研究进行了系统综述和证据图谱,发现架构实验正在快速扩展,但评估协议、执行语义和可再现性仍然是关键瓶颈。
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。