Neural Bayesian Sequential Routing

arXiv cs.LG 2026/05/27 04:00 论文

摘要

介绍了神经贝叶斯顺序路由（NBSR），这是一个将神经推理建模为有向无环图（DAG）上的顺序证据积累的框架，使用狄利克雷-分类共轭更新，实现了不确定性量化、早期退出和资源理性推理。

arXiv:2605.26147v1 公告类型：新人类决策是顺序且具有不确定性意识的，然而标准神经网络通常依赖于静态、密集的前向计算，对证据获取、不确定性演化或计算何时停止的可见性有限。我们引入了\textbf{神经贝叶斯顺序路由（NBSR）}，这是一个将神经推理建模为层级有向无环图（DAG）上的主动证据积累的框架。在狄利克雷-分类共轭框架内，神经专家查询一个持久的全局知识预言机以提取正证据向量，这些向量充当伪计数，并通过精确共轭加法更新狄利克雷信念状态。结合Gumbel-Softmax直通估计器，这种更新实现了硬性的、路径依赖的路由，同时保留了用于端到端训练的代理梯度。由此产生的狄利克雷精度和熵提供了不确定性量化、基于熵的早期退出、OOD拒绝以及成本感知的证据获取等机制。我们证明，在严格正证据提取下，总狄利克雷精度沿任何有效轨迹单调增加，且边际预测方差有界，从而形式化了顺序的“假设锐化”；在理想容量和优化假设下，终端狄利克雷期望恢复贝叶斯最优条件分布。跨视觉分类、结构化医疗诊断、语言建模、部分可观测控制以及成本感知贝叶斯实验设计的实证评估表明，NBSR在提供透明的路由轨迹、路径依赖的证据归因、不确定性感知的决策控制和资源理性推理的同时，实现了具有竞争力的预测性能。总体而言，NBSR为可解释、模块化和资源理性的代理人工智能提供了一个有数学基础的框架。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:03

# 神经贝叶斯顺序路由 来源：https://arxiv.org/html/2605.26147 黄永超¹¹\[电子邮件：yongchao\.huang@abdn\.ac\.uk\] 作者欢迎对此想法进行任何后续工作、扩展和改编。如果本手稿在未来的研究中被证明有用，将感谢适当的引用。它是在无数个日夜中开发的，旨在提供一份自包含的材料用于开放知识共享，尽管经过仔细审查后可能仍存在一些（许多）错误。（2026年3月28日） ###### 摘要 人类决策本质上是顺序的且具有不确定性意识，然而标准的深度神经网络通常依赖静态、密集的前向计算，这些计算对证据如何获取、不确定性如何演变或计算何时停止提供的可见性有限。虽然像专家混合（MoE）这样的条件架构引入了依赖于输入的计算，但传统的软路由机制可能遭受专家不平衡或崩溃的问题，并且通常不维护随时间演变的信念状态。为填补这一空白，我们引入了**神经贝叶斯顺序路由（NBSR）**，这是一种动态框架，将神经推理建模为在分层有向无环图（DAG）上的主动证据积累遍历。在狄利克雷-分类共轭框架内运行，专门的神经专家查询一个持久的全局知识Oracle以提取严格正的证据向量，这些向量充当伪计数，并通过精确的共轭加法更新狄利克雷信念状态。通过将此贝叶斯信念更新与Gumbel-Softmax直通估计器相结合，NBSR实现了硬路径依赖路由，同时保留用于端到端训练的替代梯度。由此产生的狄利克雷精度和熵为不确定性量化、基于熵的提前退出、OOD拒绝以及成本感知的证据获取提供了原生机制。我们提供理论保证，表明在严格正证据提取条件下，总狄利克雷精度沿任何有效轨迹单调增加，边缘预测方差相应有界，形式化了预期的顺序“假设锐化”行为；在理想化的容量和优化假设下，终端狄利克雷期望恢复贝叶斯最优条件分布。在视觉分类、结构化医学诊断、语言建模、部分可观测控制以及成本感知贝叶斯最优实验设计上的实证评估表明，NBSR在实现有竞争力的预测性能的同时，提供了透明的路由轨迹、路径依赖的证据归因、不确定性感知的决策控制以及资源理性的推理。最终，NBSR为可解释、模块化和资源理性的智能AI提供了一个数学上有基础的框架。 ###### 目录 1. 1引言 (https://arxiv.org/html/2605.26147#S1) 2. 2相关工作 (https://arxiv.org/html/2605.26147#S2) 3. 3预备知识 (https://arxiv.org/html/2605.26147#S3) 4. 4方法论 (https://arxiv.org/html/2605.26147#S4) 1. 4\.1流水线概览 (https://arxiv.org/html/2605.26147#S4.SS1) 2. 4\.2决策图 (https://arxiv.org/html/2605.26147#S4.SS2) 3. 4\.3全局特征表示：知识Oracle (https://arxiv.org/html/2605.26147#S4.SS3) 4. 4\.4贝叶斯状态与初始化 (https://arxiv.org/html/2605.26147#S4.SS4) 5. 4\.5可微路由器网络 (https://arxiv.org/html/2605.26147#S4.SS5) 6. 4\.6证据提取与信念更新 (https://arxiv.org/html/2605.26147#S4.SS6) 7. 4\.7训练目标与动态 (https://arxiv.org/html/2605.26147#S4.SS7) 8. 4\.8推理、提前退出与认知拒绝 (https://arxiv.org/html/2605.26147#S4.SS8) 9. 4\.9训练NBSR树 (https://arxiv.org/html/2605.26147#S4.SS9) 5. 5理论分析 (https://arxiv.org/html/2605.26147#S5) 1. 5\.1精度单调性与方差缩减 (https://arxiv.org/html/2605.26147#S5.SS1) 2. 5\.2信念状态的渐近一致性 (https://arxiv.org/html/2605.26147#S5.SS2) 3. 5\.3超参数动态与信息获取 (https://arxiv.org/html/2605.26147#S5.SS3) 4. 5\.4拓扑偏差-方差权衡 (https://arxiv.org/html/2605.26147#S5.SS4) 6. [6实验¹⁹¹⁹实验Python代码在很大程度上得到了Gemini 3\.0[24]的友好协助，作者特此致谢。](https://arxiv.org/html/2605.26147#S6) 1. 6\.1玩具实验：顺序信念锐化 (https://arxiv.org/html/2605.26147#S6.SS1) 2. 6\.2视觉分类：CIFAR-10 (https://arxiv.org/html/2605.26147#S6.SS2) 1. 6\.2\.1实验设置与基线 (https://arxiv.org/html/2605.26147#S6.SS2.SSS1) 2. 6\.2\.2结果与分析 (https://arxiv.org/html/2605.26147#S6.SS2.SSS2) 3. 6\.3结构化医学诊断²⁷²⁷在此上下文中，“结构化”指由预定义离散特征列（例如二值症状指标）表征的表格数据，与之前视觉分类任务中评估的非结构化空间流形（例如原始图像像素）形成直接对比。 (https://arxiv.org/html/2605.26147#S6.SS3) 1. 6\.3\.1实验设置与基线 (https://arxiv.org/html/2605.26147#S6.SS3.SSS1) 2. 6\.3\.2结果与分析 (https://arxiv.org/html/2605.26147#S6.SS3.SSS2) 4. 6\.4语言建模：可解释且不确定性感知的下一词元预测 (https://arxiv.org/html/2605.26147#S6.SS4) 1. 6\.4\.1实验设置与基线 (https://arxiv.org/html/2605.26147#S6.SS4.SSS1) 2. 6\.4\.2结果与分析 (https://arxiv.org/html/2605.26147#S6.SS4.SSS2) 5. 6\.5NBSR-Mem：具有动态记忆的NBSR用于控制与规划 (https://arxiv.org/html/2605.26147#S6.SS5) 1. 6\.5\.1任务与实验设置。 (https://arxiv.org/html/2605.26147#S6.SS5.SSS1) 2. 6\.5\.2结果与分析 (https://arxiv.org/html/2605.26147#S6.SS5.SSS2) 6. 6\.6作为贝叶斯最优实验设计中主动学习的NBSR (https://arxiv.org/html/2605.26147#S6.SS6) 1. 6\.6\.1任务与实验设置：主动临床分诊 (https://arxiv.org/html/2605.26147#S6.SS6.SSS1) 2. 6\.6\.2结果与分析 (https://arxiv.org/html/2605.26147#S6.SS6.SSS2) 7. 7讨论 (https://arxiv.org/html/2605.26147#S7) 1. 7\.1主动知识检索 vs\. 信息瓶颈 (https://arxiv.org/html/2605.26147#S7.SS1) 2. 7\.2分层认知能力与安全推理 (https://arxiv.org/html/2605.26147#S7.SS2) 3. 7\.3训练与推理的解耦 (https://arxiv.org/html/2605.26147#S7.SS3) 4. 7\.4作为马尔可夫决策过程（MDP）的NBSR (https://arxiv.org/html/2605.26147#S7.SS4) 5. 7\.5模块化技能获取与无界拓扑 (https://arxiv.org/html/2605.26147#S7.SS5) 8. 8结论 (https://arxiv.org/html/2605.26147#S8) 9. 参考文献 (https://arxiv.org/html/2605.26147#bib) 10. A狄利克雷分布 (https://arxiv.org/html/2605.26147#A1) 1. A\.1定义与支撑集 (https://arxiv.org/html/2605.26147#A1.SS1) 2. A\.2与分类分布的共轭性 (https://arxiv.org/html/2605.26147#A1.SS2) 3. A\.3期望、方差与协方差（“锐化”效应） (https://arxiv.org/html/2605.26147#A1.SS3) 4. A\.4边缘分布 (https://arxiv.org/html/2605.26147#A1.SS4) 5. A\.5认知不确定性与主观逻辑 (https://arxiv.org/html/2605.26147#A1.SS5) 6. A\.6微分熵与不确定性减少 (https://arxiv.org/html/2605.26147#A1.SS6) 7. A\.7两个狄利克雷分布之间的Kullback-Leibler散度 (https://arxiv.org/html/2605.26147#A1.SS7) 11. BGumbel分布 (https://arxiv.org/html/2605.26147#A2) 1. B\.1定义与支撑集 (https://arxiv.org/html/2605.26147#A2.SS1) 2. B\.2均值与方差 (https://arxiv.org/html/2605.26147#A2.SS2) 3. B\.3极值理论与Gumbel-Max技巧 (https://arxiv.org/html/2605.26147#A2.SS3) 12. CGumbel-Softmax连续松弛 (https://arxiv.org/html/2605.26147#A3) 1. C\.1Argmax的连续近似 (https://arxiv.org/html/2605.26147#A3.SS1) 2. C\.2温度退火 (https://arxiv.org/html/2605.26147#A3.SS2) 3. C\.3直通估计器（STE） (https://arxiv.org/html/2605.26147#A3.SS3) 13. D广义偏差-方差分解的推导 (https://arxiv.org/html/2605.26147#A4) 14. ENBSR与传统决策树的区别 (https://arxiv.org/html/2605.26147#A5) 15. FCIFAR-10分类的进一步结果 (https://arxiv.org/html/2605.26147#A6) 1. F\.1计算环境与实验设置 (https://arxiv.org/html/2605.26147#A6.SS1) 2. F\.2评估指标：期望校准误差（ECE） (https://arxiv.org/html/2605.26147#A6.SS2) 3. F\.3基线训练动态 (https://arxiv.org/html/2605.26147#A6.SS3) 16. G实验细节：结构化医学诊断 (https://arxiv.org/html/2605.26147#A7) 1. G\.1计算环境 (https://arxiv.org/html/2605.26147#A7.SS1) 2. G\.2数据集与预处理 (https://arxiv.org/html/2605.26147#A7.SS2) 3. G\.3网络架构 (https://arxiv.org/html/2605.26147#A7.SS3) 4. G\.4优化与超参数 (https://arxiv.org/html/2605.26147#A7.SS4) 17. H实验细节：语言建模 (https://arxiv.org/html/2605.26147#A8) 1. H\.1计算环境 (https://arxiv.org/html/2605.26147#A8.SS1) 2. H\.2数据集与预处理 (https://arxiv.org/html/2605.26147#A8.SS2) 3. H\.3网络架构 (https://arxiv.org/html/2605.26147#A8.SS3) 4. H\.4优化与超参数 (https://arxiv.org/html/2605.26147#A8.SS4) 18. IPOMDP导航任务的实验设置 (https://arxiv.org/html/2605.26147#A9) 1. I\.1计算环境 (https://arxiv.org/html/2605.26147#A9.SS1) 2. I\.2POMDP数据集生成 (https://arxiv.org/html/2605.26147#A9.SS2) 3. I\.3模型架构 (https://arxiv.org/html/2605.26147#A9.SS3) 4. I\.4训练协议与超参数 (https://arxiv.org/html/2605.26147#A9.SS4) 19. JBOED主动临床分诊的实验细节 (https://arxiv.org/html/2605.26147#A10) 1. J\.1计算环境 (https://arxiv.org/html/2605.26147#A10.SS1) 2. J\.2数据集与预处理 (https://arxiv.org/html/2605.26147#A10.SS2) 3. J\.3网络架构 (https://arxiv.org/html/2605.26147#A10.SS3) 4. J\.4优化与训练动态 (https://arxiv.org/html/2605.26147#A10.SS4) ## 1引言 人类决策本质上是顺序的、分布式的和分层的[46 (https://arxiv.org/html/2605.26147#bib.bib59),73 (https://arxiv.org/html/2605.26147#bib.bib60)]。在导航复杂环境或诊断复杂问题时，人类不会同时评估所有可能的信息；相反，我们逐步选择性地积累证据[6 (https://arxiv.org/html/2605.26147#bib.bib61)]。决策在离散的时刻做出，取决于当前的上下文状态和先前结果的轨迹。当信息流经这个心理决策树时，认知方差缩小，我们宽泛的初始假设“锐化”为狭窄而自信的结论。相比之下，标准的深度学习范式通常依赖“平坦的”、单一架构，这些架构**同时**处理所有输入特征，以在所有可能决策上产生密集概率分布[49 (https://arxiv.org/html/2605.26147#bib.bib62),28 (https://arxiv.org/html/2605.26147#bib.bib71)]。虽然这些方法在最大化语义准确性方面非常有效，但缺乏**认知合理性**[9 (https://arxiv.org/html/2605.26147#bib.bib63)]，在决策审计场景中表现出较差的**可解释性**[51 (https://arxiv.org/html/2605.26147#bib.bib64),67 (https://arxiv.org/html/2605.26147#bib.bib65)]，并且经常将不必要的计算资源浪费在易于分类、明确无误的输入上[25 (https://arxiv.org/html/2605.26147#bib.bib66),27 (https://arxiv.org/html/2605.26147#bib.bib67)]。

为了引入条件计算，诸如专家混合（MoE）[39 (https://arxiv.org/html/2605.26147#bib.bib68),70 (https://arxiv.org/html/2605.26147#bib.bib22)]之类的架构利用**动态路由**将输入委托给专门的子网络。然而，这些系统本质上无法实现真正的顺序推理。标准MoE网络通常依赖跨并行路径的软、连续加权，这削弱了严格条件执行的计算优势[16 (https://arxiv.org/html/2605.26147#bib.bib26)]。此外，MoE路由通常是一种静态的、单步的、输入条件的操作²²²训练完成后，标准MoE路由器的权重被冻结。它不维护记忆，不更新内部信念状态，也不在时间或深度上顺序积累证据。它只是执行平坦的、输入条件的矩阵乘法来划分一个批次。；它不维护信念状态，也不允许网络顺序积累证据或重新评估其不确定性。

为填补这一空白，我们引入了**神经贝叶斯顺序路由（NBSR）**。该方法采用一个**贝叶斯分层决策图**——一种新颖的神经框架，将复杂决策建模为主动的、证据积累的路由过程。我们将决策结构形式化为一个**有向无环图（DAG）**，其中每个节点包含一个**可微路由机制**和一个**神经证据提取器**。在**狄利克雷-分类共轭**框架[21 (https://arxiv.org/html/2605.26147#bib.bib57),4 (https://arxiv.org/html/2605.26147#bib.bib69)]内运行，模型维护一个关于最终结果空间的持久的信念状态。在每个路由步骤中，局部神经专家主动查询全局数据以提取严格正的证据向量。这些向量作为贝叶斯伪计数，确定性更新狄利克雷浓度参数，并自然地反映了人类认知中动态不确定性减少的过程。

为了实现此离散树结构的端到端训练，我们采用**Gumbel-Softmax松弛**[40 (https://arxiv.org/html/2605.26147#bib.bib9),53 (https://arxiv.org/html/2605.26147#bib.bib10)]结合**直通估计器（STE）**[3 (https://arxiv.org/html/2605.26147#bib.bib11)]。这允许在推理期间进行硬、路径依赖的路由（显著减少计算FLOPs），同时在反向传播期间为路由器保持平滑的替代梯度流。此外，由于NBSR原生地跟踪认知不确定性，它自然地适应通过循环记忆（POMDP导航）的自主规划[45 (https://arxiv.org/html/2605.26147#bib.bib70)]和资源理性主动学习（贝叶斯最优实验设计）[68 (https://arxiv.org/html/2605.26147#bib.bib51),18 (https://arxiv.org/html/2605.26147#bib.bib50)]。

我们在高度多样化的五个领域套件上实证验证了NBSR框架的有效性、可解释性和计算效率：(1) **视觉对象分类**（CIFAR-10）；(2) **结构化医学诊断**，产生个性化的特征归因；(3) **语言建模**，通过可解释的句法到词义词元路由；(4) **部分可观测控制**（POMDP），利用循环记忆状态；以及(5) **主动临床分诊**，建模为资源理性的BOED智能体。

我们的核心贡献是：
1. **贝叶斯顺序路由框架**：我们提出了一种新颖的条件神经执行公式，其中离散路由决策通过精确共轭加法顺序更新狄利克雷信念状态，数学上强制了决策边界的渐进锐化。
2. **端到端硬路由**：我们将Gumbel-Softmax估计器调整为训练离散分层决策树

Neural Bayesian Sequential Routing

相似文章

观点：抽样时机已到！为贝叶斯深度学习绘制新航线

不确定性下的证据引导神经架构选择用于个体化血糖预测

从早期经验中学习智能体路由

Neetyabhas：一种面向理性主体模型的不确定性感知公共政策优化框架

通过双层路由混合专家模型将持续学习扩展至 300 多项任务

提交意见反馈