主动推断是哪种类型的推断?

arXiv cs.AI 论文

摘要

本文通过证明增广生成模型的变分自由能(VFE)可以分解为预测模型的VFE加上显式熵修正项,对基于期望自由能(EFE)的规划给出了完整的变分刻画。作者推导了一种用于EFE规划的消息传递方案,并在网格世界环境中进行了验证。

arXiv:2606.04935v1 公告类型:新论文 摘要:主动推断将决策制定转化为推断问题,其中期望自由能(EFE)统一了目标导向行为与信息探索行为。近期研究表明,EFE最小化可以表示为在加入认知先验的增广生成模型上进行变分自由能(VFE)最小化。本文证明,增广模型的VFE可以改写为预测模型的VFE加上显式熵修正项,从而使EFE的贡献变得透明可解。进一步地,本文指出真正基于EFE的规划需要将这些认知修正与规划修正相结合——后者将边际推断转化为策略优化——从而给出EFE规划的完整变分刻画。这一结论厘清了交叉熵规划与完整EFE规划各自所需的修正项。同样的熵修正表述还衍生出一套用于EFE规划的详细消息传递方案及若干更简化的消融变体。在三个网格世界环境上的实验表明:当观测信息具有决定性作用时,规划修正已能带来明显提升;而当观测仅具有提示性时,额外的观测端认知修正则更为关键。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:09

# 主动推断是哪种类型的推断?

来源:https://arxiv.org/html/2606.04935

Wouter W\. L\. Nuijten (https://arxiv.org/html/2606.04935v1/mailto:[email protected]?Subject=Your%20UAI%202026%20paper)
电气工程系 埃因霍芬理工大学 埃因霍芬,荷兰
Lazy Dynamics 乌得勒支,荷兰
Mykola Lukashchuk
Thijs van de Laar
电气工程系 埃因霍芬理工大学 埃因霍芬,荷兰
Bert de Vries
电气工程系 埃因霍芬理工大学 埃因霍芬,荷兰
Lazy Dynamics 乌得勒支,荷兰

###### 摘要

主动推断将决策问题转化为推断问题,期望自由能(EFE)将目标导向行为与信息探索行为统一在一起。近期研究表明,EFE 最小化可以被重新表述为在附加了认知先验的生成模型上进行变分自由能(VFE)最小化。我们证明,增广模型的 VFE 可以被改写为预测模型的 VFE 加上显式熵修正项,从而使 EFE 的贡献变得透明。进一步地,我们证明正确的基于 EFE 的规划需要将这些认知修正与规划修正相结合——规划修正将边缘推断转化为策略优化,从而得到基于 EFE 的规划的完整变分刻画。这一结果阐明了交叉熵规划与完整 EFE 规划各自所需的修正项。同样的熵修正表述还为基于 EFE 的规划以及更简单的消融变体推导出了详细的消息传递方案。在三个网格世界环境上的实验表明:当观测具有决定性时,规划修正已能带来性能提升;而当观测仅具有提示性时,额外的观测侧认知修正的作用最为显著。

## 1 引言

不确定性下的序列决策要求在利用已有知识与探索以降低不确定性之间取得平衡。经典强化学习和最优控制通过值函数或策略优化来解决这一问题\sutton\_reinforcement\_2018, Bertsekas,[2012 (https://arxiv.org/html/2606.04935#bib.bib2)\],但通常将奖励最大化与不确定性降低视为独立目标。推断即规划(PAI)提供了一种替代方案,将控制问题转化为概率推断\Attias,[2003 (https://arxiv.org/html/2606.04935#bib.bib1),toussaint\_robot\_2009\],并将控制与变分推断及消息传递相联系\Levine,[2018 (https://arxiv.org/html/2606.04935#bib.bib17)\]。标准 PAI 方法优化期望效用或对偏好的交叉熵等目标,但不包含显式的认知驱动以降低环境不确定性。主动推断通过最小化期望自由能(EFE)来解决这一问题,将工具性目标与认知性目标统一起来\Friston et al\.,[2015 (https://arxiv.org/html/2606.04935#bib.bib10), Da Costa et al\.,2020 (https://arxiv.org/html/2606.04935#bib.bib7)\]。

De Vries et al\. \[2025 (https://arxiv.org/html/2606.04935#bib.bib8)\] 表明,EFE 最小化可以被重新表述为在附加了*认知先验*的模型上进行变分自由能(VFE)最小化。这将主动推断纳入变分框架,但留下了一个关键区别:在边缘变分目标中获得 EFE 与对策略进行规划并不等同。正确的规划还额外需要 Lázaro\-Gredilla et al\. \[2024 (https://arxiv.org/html/2606.04935#bib.bib16)\] 所提出的规划修正。本文明确阐述了这一区别,并为组合目标推导出消息传递方案。

本文结合了上述两条研究线索,主要贡献如下:

- •我们证明,正确的基于 EFE 的规划需要结合两种熵修正:Lázaro\-Gredilla et al\. \[2024 (https://arxiv.org/html/2606.04935#bib.bib16)\] 的规划修正(将期望效用变分目标转化为策略优化)与 Nuijten et al\. \[2026 (https://arxiv.org/html/2606.04935#bib.bib21)\] 的认知修正(将边缘 VFE 最小化转化为 EFE 最小化)。两者共同给出了基于 EFE 的规划的完整变分刻画,并阐明了作为边缘目标的 EFE 与基于 EFE 的规划之间的区别。
- •我们为这些熵修正目标推导出一套原则性的消息传递方案族。每个附加的熵项都会引入相应的通道重参数化,从而恢复 Bethe 坐标,解决后验依赖的认知先验所带来的循环性问题,并在同一推导框架内同时恢复变分置信传播与完整主动推断规划。
- •我们在三个网格世界环境上对该框架进行了验证,这三个环境沿两个维度——观测范围(全局 vs. 局部)和分辨率(决定性 vs. 提示性)——构成了认知需求的层级结构。实验表明逐步添加修正项的效果:在决定性观测下,规划修正已能带来提升;而在提示性观测下,额外的观测侧认知修正的作用最为显著。

第 ̃2 (https://arxiv.org/html/2606.04935#S2) 节回顾生成模型与认知先验;第 ̃3 (https://arxiv.org/html/2606.04935#S3) 节讨论相关工作;第 ̃4 (https://arxiv.org/html/2606.04935#S4) 节介绍熵修正及其累积分类体系;第 ̃5 (https://arxiv.org/html/2606.04935#S5) 节推导相应的消息传递方案族;第 ̃6 (https://arxiv.org/html/2606.04935#S6) 节提供实证验证;第 ̃7 (https://arxiv.org/html/2606.04935#S7) 节进行总结。

## 2 背景

### 2\.1 序列决策的生成模型

我们考虑一个维护生成模型的智能体,该模型预测未来的观测、状态以及行动的后果。遵循标准惯例\Levine,[2018 (https://arxiv.org/html/2606.04935#bib.bib17), Lázaro\-Gredilla et al\.,2024 (https://arxiv.org/html/2606.04935#bib.bib16)\],我们将其表示为展开模型:

p\(y,x,u,θ\)=\\displaystyle p\(\\bm\{y\},\\bm\{x\},\\bm\{u\},\\theta\)=\{\}p\(θ\)p\(x0\)∏t=1Tp\(yt\|xt,θ\)\\displaystyle p\(\\theta\)p\(x\_\{0\}\)\\prod\_\{t=1\}^\{T\}p\(y\_\{t\}\|x\_\{t\},\\theta\)⋅p\(xt\|xt−1,ut,θ\)p\(ut\),\\displaystyle\\cdot p\(x\_\{t\}\|x\_\{t\-1\},u\_\{t\},\\theta\)\\,p\(u\_\{t\}\)\\,,\(1\)

其中 x=\(x0,...,xT\)\\bm\{x\}=\(x\_\{0\},\\ldots,x\_\{T\}\) 为潜在状态,y=\(y1,...,yT\)\\bm\{y\}=\(y\_\{1\},\\ldots,y\_\{T\}\) 为观测,u=\(u1,...,uT\)\\bm\{u\}=\(u\_\{1\},\\ldots,u\_\{T\}\) 为动作,θ\\theta 为未知模型参数。其中 t=0t=0 表示当前时刻,模型在视野 TT 内预测未来的展开过程。动态 p\(xt\|xt−1,ut,θ\)p\(x\_\{t\}\|x\_\{t\-1\},u\_\{t\},\\theta\) 可以依赖参数 θ\\theta,以捕捉模型不确定性。本文在离散情形下进行讨论,因此后续对 \(yt,xt,θ\)\(y\_\{t\},x\_\{t\},\\theta\) 的所有积分均化为有限求和。

为了编码目标,我们在模型中引入对期望状态和观测的*偏好先验* p^\(xt\)\\hat\{p\}\(x\_\{t\}\) 与 p^\(yt\)\\hat\{p\}\(y\_\{t\}\)\Levine,[2018 (https://arxiv.org/html/2606.04935#bib.bib17)\]:

p^\(y,x,u,θ\)∝\\displaystyle\\hat\{p\}\(\\bm\{y\},\\bm\{x\},\\bm\{u\},\\theta\)\\propto\{\}p\(θ\)p\(x0\)∏t=1Tp\(yt\|xt,θ\)p\(xt\|xt−1,ut,θ\)\\displaystyle p\(\\theta\)p\(x\_\{0\}\)\\prod\_\{t=1\}^\{T\}p\(y\_\{t\}\|x\_\{t\},\\theta\)\\,p\(x\_\{t\}\|x\_\{t\-1\},u\_\{t\},\\theta\)⋅p\(ut\)p^\(xt\)p^\(yt\)\.\\displaystyle\\cdot p\(u\_\{t\}\)\\,\\hat\{p\}\(x\_\{t\}\)\\,\\hat\{p\}\(y\_\{t\}\)\\,\.\(2\)

这些偏好先验可以理解为正比于指数化奖励:p^\(x\)∝exp⁡\(R\(x\)\)\\hat\{p\}\(x\)\\propto\\exp\(R\(x\)\),从而将推断即规划与奖励最大化相联系\[todorov\_general\_2008\]。

综合来看,带有偏好 p^\(xt\)\\hat\{p\}\(x\_\{t\}\) 和 p^\(yt\)\\hat\{p\}\(y\_\{t\}\) 的展开模型 \(2 (https://arxiv.org/html/2606.04935#S2.E2)\) 定义了视野 TT 内的规划问题:找到一个策略 q\(ut\|xt−1\)q\(u\_\{t\}\|x\_\{t\-1\}\),使其诱导的预测轨迹与偏好一致。策略是决策变量,展开过程提供预测,偏好编码目标。

### 2\.2 变分自由能

给定生成模型,变分推断通过在一族易处理分布 qq 上最小化变分自由能(VFE)来近似后验\Blei et al\.,[2017 (https://arxiv.org/html/2606.04935#bib.bib3)\]:

Fp^\[q\]=DKL\[q\(y,x,u,θ\)∥p^\(y,x,u,θ\)\]\.F\_\{\\hat\{p\}\}\[q\]=\\mathbb\{D\}\_\{\\mathrm\{KL\}\}\\left\[q\(\\bm\{y\},\\bm\{x\},\\bm\{u\},\\theta\)\\\|\\hat\{p\}\(\\bm\{y\},\\bm\{x\},\\bm\{u\},\\theta\)\\right\]\\,\.\(3\)

在规划场景中,所有变量均未被观测(它们表示未来的量),因此最小化 Fp^\[q\]F\_\{\\hat\{p\}\}\[q\] 可得到关于未来轨迹的信念,该信念同时与动态约束和偏好先验相容。

### 2\.3 因子图与 Bethe 近似

生成模型 \(2 (https://arxiv.org/html/2606.04935#S2.E2)\) 可分解为局部项,这些局部项可用 Forney 风格因子图(FFG)表示\Forney,[2001 (https://arxiv.org/html/2606.04935#bib.bib9), Loeliger et al\.,2007 (https://arxiv.org/html/2606.04935#bib.bib19)\]。在 FFG 中,节点表示因子(概率分布),边表示变量;当某变量出现在某因子的作用域内时,对应的边与该节点相连。我们用 E\(a\)\\mathcal\{E\}\(a\) 表示与因子节点 aa 相邻的边(变量)集合,用 V\(i\)\\mathcal\{V\}\(i\) 表示与边 ii 相邻的因子节点集合。因子 aa 的作用域内的变量记为 sa\\bm\{s\}\_\{a\}。

*Bethe 近似*\[yedidia\_constructing\_2005\] 通过约束变分分布服从图结构所诱导的因子化来利用这一结构。每个节点 aa 维护一个关于其相邻变量 sa\\bm\{s\}\_\{a\} 的局部信念 qa\(sa\)q\_\{a\}\(\\bm\{s\}\_\{a\}\),每条边 ii 维护一个单点信念 qi\(si\)q\_\{i\}\(s\_\{i\}\)。这些信念必须满足局部一致性约束:

∫qa\(sa\)dsa∖i=qi\(si\)for alli∈E\(a\)\.\\int q\_\{a\}\(\\bm\{s\}\_\{a\}\)\\,\\mathrm\{d\}\\bm\{s\}\_\{a\\setminus i\}=q\_\{i\}\(s\_\{i\}\)\\quad\\text\{for all \}i\\in\\mathcal\{E\}\(a\)\\,\.\(4\)

在这些约束下,通过对共享变量的重复计数进行熵修正,VFE 化简为 *Bethe 自由能*:

FBethe\[q\]=\\displaystyle F\_\{\\text\{Bethe\}\}\[q\]=\{\}∑a∈VDKL\[qa\(sa\)∥fa\(sa\)\]\\displaystyle\\sum\_\{a\\in\\mathcal\{V\}\}\\mathbb\{D\}\_\{\\mathrm\{KL\}\}\\left\[q\_\{a\}\(\\bm\{s\}\_\{a\}\)\\\|f\_\{a\}\(\\bm\{s\}\_\{a\}\)\\right\]\+∑i∈E\(di−1\)H\[qi\(si\)\],\\displaystyle\+\\sum\_\{i\\in\\mathcal\{E\}\}\(d\_\{i\}\-1\)\\,\\mathbb\{H\}\\left\[q\_\{i\}\(s\_\{i\}\)\\right\]\\,,\(5\)

其中 V\\mathcal\{V\} 为节点集合,E\\mathcal\{E\} 为边集合,faf\_\{a\} 为节点 aa 处的因子,did\_\{i\} 为边 ii 的度数(相连节点数)。通过消息传递最小化 Bethe 自由能可得到置信传播算法;在树形结构图上,该算法可精确恢复边缘分布\Pearl,[1982 (https://arxiv.org/html/2606.04935#bib.bib27)\]。详细内容见附录 C (https://arxiv.org/html/2606.04935#A3)。

### 2\.4 认知先验

标准变分推断不区分变量类型:动作、状态、观测和参数在 VFE 中对称出现。Nuijten et al\. \[2026 (https://arxiv.org/html/2606.04935#bib.bib21)\] 阐明了*认知先验* p~\(ut\)\\tilde\{p\}\(u\_\{t\}\)、p~\(xt\)\\tilde\{p\}\(x\_\{t\}\) 和 p~\(yt,xt\)\\tilde\{p\}\(y\_\{t\},x\_\{t\}\) 的含义,这些先验编码了哪些变量是受控的、被推断的或被观测的。这些先验对生成模型进行增广:

p~\(y,x,u,θ\)∝\\displaystyle\\tilde\{p\}\(\\bm\{y\},\\bm\{x\},\\bm\{u\},\\theta\)\\propto\{\}p^\(y,x,u,θ\)\\displaystyle\\hat\{p\}\(\\bm\{y\},\\bm\{x\},\\bm\{u\},\\theta\)∏t=1Tp~\(ut\)p~\(xt\)p~\(yt,xt\)\.\\displaystyle\\prod\_\{t=1\}^\{T\}\\tilde\{p\}\(u\_\{t\}\)\\,\\tilde\{p\}\(x\_\{t\}\)\\,\\tilde\{p\}\(y\_\{t\},x\_\{t\}\)\\,\.\(6\)

每个先验均通过变分分布 qq 的条件分布熵来定义(脚注¹:我们用 h\[q\(y\|x\)\]\\mathrm\{h\}\\left\[q\(y\|x\)\\right\] 表示条件分布 q\(y\|x\)q\(y\|x\) 的*条件熵函数*,它是 xx 的函数;用 H\[q\(y\|x\)\]\\mathbb\{H\}\\left\[q\(y\|x\)\\right\] 表示*条件熵*标量:H\[q\(y\|x\)\]=Eq\(x\)\[h\[q\(y\|x\)\]\]\\mathbb\{H\}\\left\[q\(y\|x\)\\right\]=\\mathbb\{E\}\_\{q\(x\)\}\\left\[\\mathrm\{h\}\\left\[q\(y\|x\)\\right\]\\right\]。):

p~\(ut\)∝exp⁡\(h\[q\(xt,xt−1\|ut\)\]−h\[q\(xt−1\|ut\)\]\),\\displaystyle\\tilde\{p\}\(u\_\{t\}\)\\propto\\exp\\bigl\(\\mathrm\{h\}\\left\[q\(x\_\{t\},x\_\{t\-1\}\|u\_\{t\}\)\\right\]\-\\mathrm\{h\}\\left\[q\(x\_\{t\-1\}\|u\_\{t\}\)\\right\]\\bigr\)\\,,\(7a\)

p~\(xt\)∝exp⁡\(Eq\(θ\|xt\)\[−h\[q\(yt\|xt,θ\)\]\]\),\\displaystyle\\tilde\{p\}\(x\_\{t\}\)\\propto\\exp\\bigl\(\\mathbb\{E\}\_\{q\(\\theta\|x\_\{t\}\)\}\\left\[\-\\mathrm\{h\}\\left\[q\(y\_\{t\}\|x\_\{t\},\\theta\)\\right\]\\right\]\\bigr\)\\,,\(7b\)

p~\(yt,xt\)∝exp\(DKL\[q\(θ\|yt,xt\)∥q\(θ\|xt\)\]\)\.\\displaystyle\\tilde\{p\}\(y\_\{t\},x\_\{t\}\)\\propto\\exp\\bigl\(\\mathbb\{D\}\_\{\\mathrm\{KL\}\}\\left\[q\(\\theta\|y\_\{t\},x\_\{t\}\)\\\|q\(\\theta\|x\_\{t\}\)\\right\]\\bigr\)\\,\.\(7c\)

Nuijten et al\. \[2026 (https://arxiv.org/html/2606.04935#bib.bib21)\] 证明,增广模型的 VFE Fp~\[q\]F\_\{\\tilde\{p\}\}\[q\] 是期望 EFE 的上界。一个值得注意的特点是,认知先验依赖于变分分布 qq 本身,产生了循环依赖,使优化变得复杂。本文的核心贡献之一是将该循环性明确表达为目标函数中的熵修正项,而不是将其隐含在依赖后验的先验中。

## 3 相关工作

##### 推断即规划。

PAI 框架将最优控制转化为图模型中的推断\Attias,[2003 (https://arxiv.org/html/2606.04935#bib.bib1),toussaint\_robot\_2009\],将控制与变分方法及消息传递相联系\Levine,[2018 (https://arxiv.org/html/2606.04935#bib.bib17)\]。密切相关的表述包括线性可解 MDP\[todorov\_linearlysolvable\_2006\]、路径积分控制\Kappen,[2005 (https://arxiv.org/html/2606.04935#bib.bib14)\]、KL 控制\Kappen et al\.,[2012 (https://arxiv.org/html/2606.04935#bib.bib13)\] 以及随机最优控制\Rawlik et al\.,[2012 (https://arxiv.org/html/2606.04935#bib.bib28)\]。一个已知的挑战是*乐观推断*:以目标为条件会使后验偏向于假设有利结果的轨迹\Levine,[2018 (https://arxiv.org/html/2606.04935#bib.bib17)\]。Lázaro\-Gredilla et al\. \[2024 (https://arxiv.org/html/2606.04935#bib.bib16)\] 通过熵修正解决了这一问题,该修正通过惩罚依赖于偶然状态实现的计划,将期望效用变分目标转化为正确的控制目标。

##### 主动推断。

主动推断通过最小化期望自由能(EFE)来结合工具性价值与认知性价值\Friston et al\.,[2015 (https://arxiv.org/html/2606.04935#bib.bib10), Da Costa et al\.,2020 (https://arxiv.org/html/2606.04935#bib.bib7), Parr et al\.,2022 (https://arxiv.org/html/2606.04935#bib.bib25)\]。现有方法采用专门的求解程序:树搜索\Friston et al\.,[2021 (https://arxiv.org/html/2606.04935#bib.bib11)\]、分支\Champion et al\.,[2022 (https://arxiv.org/html/2606.04935#bib.bib6)\] 或动态规划\Paul et al\.,[2024 (https://arxiv.org/html/2606.04935#bib.bib26)\]。已有若干工作……

相似文章

证据深度学习的变分推断

arXiv cs.LG

提出了一种数学上严格的框架——变分推断的深度证据学习(VI-EDL),通过变分推断重新表述传统深度证据学习,推导出证据下界,建立泛化界,并在视觉和医学数据集上实现了最先进的性能,以解决传统深度证据学习的局限性。

基于能量的模型的隐式生成和泛化方法

OpenAI Blog

OpenAI 提出了基于能量的模型 (EBM) 的隐式生成和泛化方法,该方法使用 Langevin 动力学进行迭代优化以生成样本,无需显式生成器网络。该方法具有多个优势,包括自适应计算时间、学习不连通数据模式的灵活性,以及通过专家乘积实现的内置组合性。

生成对抗网络、逆强化学习和基于能量模型之间的联系

OpenAI Blog

本文建立了生成对抗网络 (GAN)、逆强化学习 (IRL) 和基于能量的模型 (EBM) 之间的数学等价性,证明了某些 IRL 方法等价于具有可评估生成器密度的 GAN。这项工作连接了三个研究社区,促进知识转移,有助于开发更稳定和可扩展的算法。