潜知识获取的不可能性

arXiv cs.AI 2026/06/11 04:00 论文

ai-safety honesty latent-knowledge causal-influence-diagrams impossibility-theorem alignment research

摘要

本文使用因果影响图正式定义了从AI系统中获取潜知识（ELK）的问题，并证明了一个不可能性定理：没有任何仅依赖智能体行为的基于反馈的训练策略能够保证智能体诚实，即使训练反馈完美无缺。

arXiv:2606.12268v1 公告类型：新摘要：先进的人工智能系统对其环境拥有广泛的知识；事实上，它们的知识可能（远远）超过其开发人员或用户。因此，人工智能系统的一个理想特性是诚实——即准确报告其对世界的信念。设计一个诚实的人工智能系统可能很困难，尤其是当我们想询问关于环境中潜变量的问题时——这些变量对与之交互的人类是隐藏的。这就引出了潜知识获取（ELK）问题：即训练人工智能智能体诚实报告其信念的问题。在本文中，我们使用因果影响图（CID）使ELK形式化精确。CID可用于描述智能体训练环境与其主观世界表示之间的关系。我们使用CID来形式化可观测变量与潜变量之间的区别，精确指定智能体诚实的含义，并形式化定义目标泛化错误。我们表明，在某些情况下，开发人员可以通过在训练期间提供正确反馈来激励智能体诚实回答问题。然而，智能体一种自然但不期望的泛化方式是提供人类会评估为真的答案，而非诚实的答案。我们证明了一个不可能性定理：没有任何仅依赖智能体行为的基于反馈的训练策略能够确定性地产生一个诚实智能体，即使训练期间的反馈是完美的。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:51

# 潜在知识诱发的不可行性 来源：https://arxiv.org/html/2606.12268 Korbinian Friedl 伦敦政治经济学院 & Francis Rhys Ward¹ 独立研究员 & Paul Rapoport 独立研究员 & Tom Everitt & Jon Richens ###### 摘要 先进AI系统对其环境拥有广泛的知识；事实上，这些知识可能*远超*其开发者或用户。因此，AI系统的一个理想属性是*诚实*——即准确报告其对世界的信念。设计一个诚实的AI系统可能很困难，尤其是当我们想询问关于环境中*潜在*变量（即与人交互的人类无法直接观测的变量）的问题时。这引出了*潜在知识诱发（ELK）*问题：训练AI代理诚实报告其信念的问题。*本文利用因果影响图（CID）对ELK进行了形式化精确刻画。CID可用于描述代理训练环境与其主观世界表征之间的关系。我们使用CID来形式化区分可观测变量和潜在变量，明确代理诚实的真正含义，并形式化定义目标泛化错误。我们证明，在某些条件下，开发者可以通过在训练期间提供正确反馈来激励代理诚实回答问题。然而，代理一种自然但不希望的泛化方式是提供人类会评价为正确的答案，而非诚实的答案。我们证明了一个不可能性定理：**不存在仅依赖代理行为且能确定性产生诚实代理的基于反馈的训练策略，即使在训练期间反馈完美。** ## 1 引言 先进AI系统对其环境拥有广泛的知识，并且可能知道开发者或用户不知道的事情。¹¹¹关于“知识”没有普遍接受的哲学理论。我们以常识性用法使用该术语，并形式上将代理的信念表示为世界的因果模型。在第7.5节（https://arxiv.org/html/2606.12268#S7.SS5）中，我们讨论了关于AI信念的论述。在许多情况下，诱发出AI的知识或信念将很有用，这样我们就可以了解世界中对我们是*潜在*的事实。这引出了从AI系统诱发潜在知识的问题[7（https://arxiv.org/html/2606.12268#bib.bib7）]： > *潜在知识诱发（ELK）是设计一种训练策略的问题，该策略能产生一个有能力且诚实报告其信念的AI系统。* ELK是一个困难问题，原因有多方面。在训练期间可能无法直接奖励诚实，因为AI系统可能没有可解释的信念[14（https://arxiv.org/html/2606.12268#bib.bib14）]。AI代理也可能有动机欺骗人类以追求其目标[37（https://arxiv.org/html/2606.12268#bib.bib37）]，即使其他方面良性的AI系统也可能无法诚实泛化[7（https://arxiv.org/html/2606.12268#bib.bib7）]。Christiano等人[7（https://arxiv.org/html/2606.12268#bib.bib7）]引入了ELK并非正式地讨论了其中许多核心挑战。后续相关工作针对问题的不同方面展开，例如开发ELK基准[29（https://arxiv.org/html/2606.12268#bib.bib29）]，或预测LLM信念的可解释性方法[22（https://arxiv.org/html/2606.12268#bib.bib22），16（https://arxiv.org/html/2606.12268#bib.bib16）]，或提议设计上诚实的AI系统[2（https://arxiv.org/html/2606.12268#bib.bib2）]。然而，迄今为止，该领域缺乏一个精确的形式化框架来描述和研究ELK，该框架需明确研究目标以及哪些核心挑战是中心问题。本文提出因果影响图作为形式化框架，在此框架内阐述和研究ELK问题。我们展示了如何在此框架中定义与ELK相关的核心概念，并利用它证明不可能性结果，表明任何在稳健有能力的代理之间无差异的训练策略都无法解决ELK问题。我们首先简要非正式地提炼Christiano等人[7（https://arxiv.org/html/2606.12268#bib.bib7）]引入的ELK，作为对ELK形式化定义必须涵盖内容的基准和概述（第2节）。第3节引入因果影响图（CID），并用它们定义与ELK相关的核心概念：在因果结构*环境*中运行的AI*代理*、该环境中的*分布偏移*、环境中的*可观测*部分与*潜在*部分（相对于代理视角的区分）、以及开发者的*训练策略*。此外，我们在形式体系中定义了重要的*真实性*和*诚实*概念，这些概念涉及代理对环境的主观表征（第4节）。我们展示了这两个概念如何分离，并说明和证明了它们一致的条件。第5节利用前几节构建的形式概念证明了我们的主要结果： > *任何对稳健有能力的代理无差异的ELK训练策略，可能产生一个模拟评估机制而非诚实代理的代理，即使在训练期间评估始终正确。* 我们对ELK问题的形式化陈述及不可能性结果，展示了实践中解决ELK的核心挑战，我们希望实证研究者能跟进来自前沿AI系统的理论上合理的ELK解决方案提案。 ## 2 ELK问题提炼 Christiano等人[7（https://arxiv.org/html/2606.12268#bib.bib7）]将ELK引入为“设计一种训练策略的问题，该策略使AI能够报告其已知内容，无论（学习）如何内部塑造其心智”。让我们更详细地阐述这一点。首先，该问题假设存在一个环境、开发者以及在该环境中行动的AI系统（这也是我们下面经常称其为*代理*的原因——更多内容见第3.4节）。开发者正在训练AI系统。一组因果相关的随机变量描述了环境各个方面之间的关系，包括代理所做的决策。开发者可以设计环境的不同特征，例如训练目标。AI和开发者都有一组可直接观测的变量子集。剩余变量从各自视角来看是*潜在*的。ELK问题还假设，在某种意义上，AI知道并相信关于环境的事情。开发者的任务是设计一个*训练策略*：选择（部分）训练环境、数据分布和采样、奖励/损失函数以及训练算法。开发者不能提供直接依赖于他们未观测变量（即潜在变量）的反馈给AI。AI在开发者应用其训练策略之前可能已经拥有一些关于环境的知识。训练后，AI必须能够回答关于环境的问题。ELK的一个解决方案是一种训练策略，该策略产生一个有能力和*诚实*的代理：代理在回答关于环境的问题时（包括关于可观测变量和潜在变量的问题），应准确报告其信念。 ###### 示例1（天气预报员，图1）。考虑一个天气预报员AI：一个被训练成在收到天气报告作为输入时回答关于天气问题的代理。报告包含温度、降雨量和风速等测量值（可观测变量）。环境可以通过一个因果模型来描述，该模型记录不同天气事件之间的关系。开发者的目标是训练代理，使其报告自己对天气状况的最佳猜测；既包括观测到的现象（降雨量、温度等），也包括只能通过推理获得的知识，即其潜在变量（例如，是否出太阳）。 ## 3 形式化ELK问题设定 本节的目标是逐步构建ELK的形式化定义。我们在此预先给出定义；其不同方面是本节其余部分的路线图，将解释并论证它们。完整的正式细节见附录，特别是第7.4节。 ###### 定义1（ELK）。对于给定的代理Γ₀和环境M（具有可观测变量O和可用分布S）在其中行动，ELK是指定一个训练策略的问题，该策略产生一个代理Γ₁，满足： - • 能够回答关于环境的问题。即，代理的一个决策D具有一个变量Q——问题——作为输入。 - – 问题Q=q指向M中的一个特定变量并要求其值。 - – 回答D=a报告该变量的值。 - – 形式上，我们假设所有变量都有唯一名称，Q的域是这些名称的集合，D的域包括V中所有变量的可能值。 - • 相对于（预）训练效用具有稳健能力。 - • 是诚实的。 我们现在希望精确解释该定义中每个组成部分的含义。为此，我们在第3.1节简要介绍我们的CID形式体系，然后在第3.2节讨论它们如何描述训练环境及其中的分布偏移，在第3.3节区分可观测变量和潜在变量，并在第3.4节形式化代理的概念。第3.5节定义了训练策略，并指出了ELK背景下的一些伴随挑战。 ### 3.1 因果影响图（CID）背景 机会变量 决策 效用 因果链接 观测 D D Q Q Y Y U U M₁ M₁ M₂ M₂ M₃ M₃ 图1：表示代理环境因果模型的CID（示例1）。圆形节点代表机会变量，方块代表代理决策，菱形代表用作训练目标的效用函数。在示例1中，代理可以访问报告的测量值M₁、M₂、M₃，由从这些节点到D的（虚线）边表示。代理收到关于天气的问题Q并选择答案。阳光Y是一个潜在变量——它影响测量值，但开发者无法观测到它，因此训练期间的反馈不能直接反映它——所以从Y到U没有因果边。我们使用*因果影响图（CID）*[8（https://arxiv.org/html/2606.12268#bib.bib8）]的语言来形式化ELK。以下给出基本概述；细节见附录第7.2节。 因果影响图（CID）。一个CID M由一组随机变量和一个表示变量间因果依赖关系的有向无环图组成。我们用大写字母表示变量（例如V），小写字母表示其值（例如V=v）。我们用粗体表示（有序）变量集和值集V=v。CID包括描述环境各个方面的*机会*变量，以及表示*决策*（D）和*效用*（U）的变量，使我们能够表示代理的决策过程。指向决策的边表示代理在做出决策时可以访问的信息。我们将图中变量V的父节点集记作Pa^V。一个CID M，连同代理的策略，在变量V∈V上诱导一个联合概率分布，记作Pr_M。 ### 3.2 环境编码因果模型 AI的环境可以用一个CID来描述，我们希望系统回答关于这个环境的问题。图1表示了示例1的设置。 ###### 示例1（续）。假设天气预报员AI可以访问三个测量值（温度、降雨量和风速）。我们在CID中将它们表示为机会变量（M₁、M₂、M₃）。此外，代理会收到关于天气的问题（Q），例如“温度是多少？”。一个AI系统接收信息——通过上下文、预训练或微调。这些信息定义了事实（即变量赋值）上的概率分布。 ###### 示例1（续）。假设温度测量值服从均值10°C、标准差5°C的正态分布。那么CID中代表温度测量的变量将有一个相应的先验概率分布。 分布偏移。此外，CID捕捉了环境的底层因果结构（图中的边）。这个因果结构定义了某些变量上的*分布偏移*如何影响整个环境。形式上，在CID中，分布偏移表示为*干预*σ，它为变量集指定新的条件分布，记作V_σ（因此我们互换使用“干预”和“分布”）。我们用I_M表示M上所有分布的集合。训练分布集S通常小得多。 ###### 示例1（续）。我们可以考虑来自更热国家的天气报告，这对应于温度测量值上的分布偏移σ，其中温度M₁现在服从均值20°C、标准差4°C的正态分布。 策略。CID包含捕捉代理决策的变量。代理选择一个*策略*π，该策略在给定其父节点的情况下在决策变量上诱导一个分布。我们用Π_M表示CID M上所有策略的集合。 ###### 示例1（续）。AI系统学习一个*策略*π，该策略指定在给定报告M=m和问题Q=q作为输入时给出哪些答案。 训练目标。开发者可以指定一个目标函数，例如损失或奖励——由CID的效用变量表示——该函数约束系统的最优决策。因此，效用函数是开发者可以*激励*系统表现出特定行为的核心机制。 ###### 示例1（续）。我们可以指定一个效用函数，当答案被评估为正确时给予奖励。也就是说，给定一个关于报告中测量值的问题（例如温度），如果代理给出了正确回答

潜知识获取的不可能性

相似文章

MechELK：一种用于从大型语言模型中引出潜在知识的机制可解释性框架

可观测模式并非解释：隐式推理模型的因果几何分析

@dair_ai: 一个LLM代理真的能构建它无法看到的环境模型吗？这项工作使这个问题可评分。一个代理…

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

@rohanpaul_ai: LLM 代理能否通过交互发现隐藏规则？答案令人不安。隐藏世界越复杂…

提交意见反馈