检索预热能量基推理：用于结构推理任务上扩散作为推理的五臂消融方法论

arXiv cs.LG 2026/06/26 04:00 论文

摘要

本文提出一种五臂消融方法论，用于诊断检索预热能量基推理（RW-EBR）中哪个组件驱动性能提升，应用于图可达性和数独等结构推理任务。该方法分离了类先验偏差、随机预热启动和图对齐值重用三种效应的影响。

arXiv:2606.26476v1 公告类型：新摘要：热启动扩散采样器加速迭代推理，但通常不清楚管道的哪个部分带来了增益。我们研究了\textbf{检索预热能量基推理（RW-EBR）}——一种基于IRED的能量基扩散模型\cite{du2024ired}，并加入了现代Hopfield轨迹记忆——贡献了一种\textbf{五臂消融方法论}（oracle、最佳常数、每查询随机、打乱、对齐），该方法分离了三种混淆效应：类先验偏差转移、随机预热启动和图对齐值重用。该诊断分解改编自LLM-RAG评估\cite{ru2024ragchecker}。在\textbf{connectivity-2}（Erd\H{o}s--R\'enyi所有点对可达性）上，对齐与打乱oracle之间的摆动在固定的1{,}000图验证集诊断中达到了\textbf{$+35$\,pp}平衡准确率，值分布和检索机制固定，仅破坏了每图对齐，而每查询随机初始化低于冷启动——表明每图对齐（而非偏差转移或随机性）起主导作用。然而，\emph{可部署的}冷预测管道在存储值质量上未通过接收门。相同的诊断逻辑，在关键质量筛检处停止，应用于带任务特定键编码器的\textbf{数独}，在\emph{不同}组件上产生了明确的负结果——在当前设置下是键质量。该分解指出了每个任务上的第一个阻塞组件。该设置——通过迭代扩散采样器细化的图可达性，以失败模式的可解释性为视角——将这项工作置于结构和时空推理领域。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:20

# 面向结构化推理任务中扩散即推断的五臂消融方法

来源：https://arxiv.org/html/2606.26476  
Po\-Wei Harn²  
Zewei Zhang¹  
Peixiong He¹  
Xiao Qin¹,†  

¹ 奥本大学计算机科学与软件工程系，奥本，AL 36830，美国  
² 国立中央大学信息管理系，桃园 320317，台湾  

† 通讯作者。[email protected], [email protected], [email protected], [email protected], [email protected]  

###### 摘要  

热启动扩散采样器加速了迭代推理，但很少清楚管线的哪个部分带来了增益。我们研究了检索热启动能量推理（RW-EBR）——一种基于IRED的能量扩散模型Du et al. (2024)（https://arxiv.org/html/2606.26476#bib.bib5）并辅以现代Hopfield轨迹记忆——并提出了一种五臂消融方法（oracle、best-constant、per-query-random、shuffled、aligned），该方法分离了三种混杂效应：类先验偏差转移、随机热启动和图表对齐值重用。该诊断分解改编自LLM-RAG评估Ru et al. (2024)（https://arxiv.org/html/2606.26476#bib.bib11）。在连通性-2（Erdős–Rényi全对可达性）上，aligned-vs-shuffled-oracle的摆动在固定1,000图验证集诊断上达到+35pp平衡准确率，同时值分布和检索机制固定，仅破坏逐图对齐，而per-query随机初始化低于冷启动——逐图对齐（而非偏差转移或随机性）占主导。然而，*可部署的*冷预测管线在存储值质量处未通过接收门。同样的诊断逻辑，在关键质量筛选处停止，应用于数独（Sudoku）时使用任务特定的关键编码器，在*不同*组件处产生清晰阴性——在当前设置下是关键质量。该分解命名了每个任务上的第一个阻塞组件。该设置——通过迭代扩散采样器精化的图可达性，以失败模式的可解释性为视角——将工作置于结构化和时空推理中。

## 1 引言

迭代推理过程——扩散采样器、基于能量的推理模型——越来越多地被*热启动*：采样器不是从噪声初始化，而是以一个候选解（通常是从过去解的存储中检索到的）作为种子，以减少精化步骤的数量。当这样的管线改进或失败时，很少清楚*哪个*部分负责。热启动可能有帮助，因为检索的内容确实与任务相关，因为它无论内容如何都将初始化转移到更好的区域，或者仅仅因为任何逐查询扰动打破了退化平衡。这些解释对检索热启动何时泛化意味着非常不同的事情，然而单一的端到端准确率数字无法区分它们。我们将此框架为结构化推理系统的可解释失败归因：定位推理管线的哪个组件驱动结果是一个诊断评估问题，而不是聚合基准性能问题。支撑该研究的设置——通过迭代扩散采样器精化的关系结构（Erdős–Rényi图上的全对可达性）——是结构化和时空推理的一个图和迭代形状的实例。

我们在这个归因问题中研究检索热启动能量推理（RW-EBR）：一种IRED能量扩散模型Du et al. (2024)（https://arxiv.org/html/2606.26476#bib.bib5）增设一个现代Hopfield轨迹记忆Ramsauer et al. (2021)（https://arxiv.org/html/2606.26476#bib.bib10）提供逐查询热启动。我们的贡献是一个五臂消融方法——oracle、best-constant、per-query-random、shuffled和aligned——分离检索热启动的三种混杂效应：类先验偏差转移、随机热启动和图表对齐值重用。我们用一个三组件分解组织分析——关键质量、热启动机制、存储值质量——改编自LLM-RAG评估的检索器和生成器侧诊断逻辑Ru et al. (2024)（https://arxiv.org/html/2606.26476#bib.bib11）。我们不声称分解或部分噪声热启动机制是新颖的——SDEditMeng et al. (2022)（https://arxiv.org/html/2606.26476#bib.bib8）是该机制的前身，WSDScholz and Turner (2025)（https://arxiv.org/html/2606.26476#bib.bib12）是最接近的学来的热启动竞争对手。贡献在于消融方法及其在检索热启动迭代推理中的应用，加上它揭示的两项实证发现。

第一个发现在连通性-2（Erdős–Rényi图上的全对可达性）上有一个对齐效应。在oracle记忆下，对齐臂和打乱臂之间的摆动——即黄金值其(key, value)配对在查询间被置换，保持值分布和检索机制固定——在平衡准确率上为+35pp。常量初始化扫描将偏差转移贡献限制在≤+8pp，而逐查询随机初始化落在-1.5到-3.1pp：逐图对齐（而非偏差转移和逐查询随机性）是主导杠杆。这些热启动臂作为固定验证集诊断（1,000图，种子20260420）运行；多种子热启动复制留给更大的研究。然而，可部署的冷预测管线仍错过-2pp接收门（Δbal=-4.09pp）；相同的分解将该失败定位到存储值质量。

第二个发现是失败模式是异质的。我们将相同的诊断逻辑——对比关键训练和质量比率门，在关键质量筛选处停止——应用于数独（Sudoku）使用任务特定编码器，并在*不同*组件处获得清晰阴性：在当前掩码感知已解板目标和500候选池下，关键编码器本身无法清除其质量门，而在连通性上编码器通过且存储值质量是瓶颈。这两个案例研究表明三组件分解在每个任务上揭示了不同的瓶颈，而不是将它们坍缩成一个端到端数字。

我们将IRED包装为基础推理模型并不修改它：IRED的采样器从高斯初始化（其算法2硬编码y~∼N(0,I)）。我们的原则性否定涉及我们研究的检索添加，而不是IRED主干。

总结起来，我们贡献了(i)一个检索热启动迭代推理的五臂消融方法，分离偏差转移、随机热启动和对齐值重用；(ii)连通性-2上的aligned-vs-shuffled-oracle对齐效应，隔离逐图值对齐作为主导杠杆；以及(iii)一个异质失败案例研究——在相同诊断工作流下，连通性-2在存储值质量失败，数独在关键质量失败——识别每个任务上的第一个阻塞组件。

参考标题图1：检索热启动推理的诊断装置。(A) RW-EBR管线注释了三个可测试组件：关键质量(K)、热启动机制(M)、存储值质量(V)。(B) 五臂套件作为组件矩阵：✓ = 已学习/真实，⋆= oracle存储值，⋆×= 错误键的oracle，∅= 绕过任务信息检索，C/R = 常量或随机存储值。

## 2 方法

我们在连通性-2上评估Du et al. (2024)（https://arxiv.org/html/2606.26476#bib.bib5）：从未向Erdős–RényiG(N=12,p=0.2)图的邻接矩阵预测其全对可达性矩阵。邻接和目标被缩放到±1；这是单元级二分类，正类（“存在路径”）先验≈0.63。训练和评估都使用IRED的GraphConnectivityDataset。基础推理模型(G0)是IRED的32通道GraphEBM，在IRED去噪目标下（缩放±1目标上的MSE）训练30k步，10个扩散时间步，启用能量景观监督和内循环优化。在T个推理时间步从未增强模型提取的样本是冷T=T基线。

检索关键来自一个3层GINXu et al. (2019)（https://arxiv.org/html/2606.26476#bib.bib18）带有*标签顺序读出*——按节点标签顺序连接每节点特征，而非求和池化——以及在层0特征上的一个已学习的位置id嵌入。标签顺序读出在我们设置中是工程选择：求和池化读出是置换不变的，这将破坏热启动消费者所需的标签索引结构，因为检索到的可达性矩阵必须与查询的节点标签对齐；id嵌入区分度对称坍缩情况。编码器使用监督对比损失Khosla et al. (2020)（https://arxiv.org/html/2606.26476#bib.bib7）在每个锚点的4个目标最近邻上训练，温度τ=0.1，3,000步；对相似度目标是每边汉明一致性的可达性。GIN和SupCon是现成的，设计选择是工程而非贡献；第4.1节（https://arxiv.org/html/2606.26476#S4.SS1）报告了最终的关键质量。

一个容量10,000的现代Hopfield轨迹记忆Ramsauer et al. (2021)（https://arxiv.org/html/2606.26476#bib.bib10）存储(key, value)对，其值是基础模型轨迹，在预热阶段通过以Tanchor=10在一随机流10,000训练例子上运行冷推理*一次性写入*；没有评估时写入。在评估时，查询的关键通过一个β温度softmax在顶部8个余弦相似度上检索一个值，其中逆温度β控制检索尖峰度，检索到的值以两种方式之一种子IRED采样器。选项A将t=0初始化替换为检索到的值并运行Krefine步优化迭代。选项B——主要报告路径——将检索到的值前向噪声到注入时间步tinject通过标准扩散前向边际q(xt|x0)，然后从tinject向下到0运行反向IRED p_sample_loop。报告运行使用tinject=2——在模型的10时间步扩散计划上的温和再噪声——β=20；选项A在Krefine=10也报告用于鲁棒性。两者相对于完整冷样本减少前向传播计数。

所有连通性G0和G1运行共享一个固定缓存的验证集1,000图（种子20260420）。标题指标是平衡准确率=1/2(rec+ + rec-)，随原始准确率和每类召回报告；≈63/37类不平衡使原始准确率成为误导性门，而平衡准确率对任何类上的先验坍缩免疫。G1接收门要求Δbal_acc(热-冷)≥-2pp在前向传播加速≥2×时。我们将此门用作当前研究的*操作诊断筛选*——对于何时停止将某个臂报告为候选可部署热启动的合理性阈值，而非关于外部任务级成功的声明。-2pp容差大约是每个种子冷噪声地板（平衡准确率标准差0.13pp跨5个种子；第4.3节（https://arxiv.org/html/2606.26476#S4.SS3））的15×：任何违反都远在每个种子采样抖动之外，同时仍允许在速度提升补偿下的小准确率下降。下面的PASS/FAIL标签指此内部筛选。

我们还在数独上练习组件K，使用来自IRED的SATNet风格Wang et al. (2019)（https://arxiv.org/html/2606.26476#bib.bib17）数据集Du et al. (2024)（https://arxiv.org/html/2606.26476#bib.bib5）。关键编码器是一个3层ResNet（∼593k参数）使用相同SupCon目标训练3,000步；每锚点相似度目标是每单元argmax一致性的查询未知部分，针对批内500候选池评分。通过标准是quality_ratio≥0.85和ret_top_w(β=20)≥0.30。数独上未练习热启动机制和存储值组件；第5节（https://arxiv.org/html/2606.26476#S5）报告结果。

#### 可复现性。

发布后，我们计划发布一个补充存档，包含连通性-2 G0主干、对比关键编码器和所有五个G1热启动臂（冷、oracle、shuffled、best-constant和per-query-random）的训练和评估脚本，及其固定配置；数独关键编码器训练脚本和SupCon配置；验证集种子和5种子冷噪声地板脚本；以及产生论文所有六个图形的图形脚本。存档针对缓存验证集复现所有报告表格和图形，并包含覆盖评估实用工具的一个单元测试套件。

## 3 分解检索热启动推理

我们将检索热启动推理分解为三个可以独立失败的组件：(K)关键质量——编码器是否将输入映射到其检索值有用热启动的关键？通过quality_ratio衡量：查询与其顶部1检索候选之间的目标相似度，除以所有候选中可用的最佳目标相似度；(M)热启动机制——给定固定质量的检索值，推理循环是否将其精化向真实目标？通过一个*oracle-记忆消融*将地面真值直接写入记忆来隔离；(V)存储值质量——冷模型是否产生可作为未来热启动有用的预测？这改编自LLM-RAG诊断分解Ru et al. (2024)（https://arxiv.org/html/2606.26476#bib.bib11）；Sivakumar et al. (2026)（https://arxiv.org/html/2606.26476#bib.bib14）用于检索热启动*迭代*推理。图1（https://arxiv.org/html/2606.26476#S1.F1）总结了装置和五个臂。

臂/配置 | balr | r+ | r- | spd | Δbal  
*理智臂——可部署冷预记忆:*  
cold (T=10) | .755 | 1.000 | .511 | 1.0× | —  
warm, cold-pred Opt B | .715 | .999 | .430 | 3.3× | -4.09  
*Oracle臂——地面真值记忆:*  
cold (T=10) | .753 | 1.000 | .505 | 1.0× | —  
warm, oracle Opt B | .977 | .993 | .960 | 3.3× | +22.39  
warm, oracle Opt A | .957 | .989 | .926 | 5.5× | +20.45  
表1：连通性-2上的热启动臂（β=20；Opt B在tinj=2，Opt A在Kref=10）。理智臂：可部署冷预记忆在存储值质量处未通过门（V FAIL）。Oracle臂：两个热启动变体都通过（M PASS）。臂内Δbal vs每个臂自身的冷参考。固定n=1,000验证集；多种子注意事项见第4.5节（https://arxiv.org/html/2606.26476#S4.SS5）。

## 4 连通性-2：存储值质量失败

我们在连通性-2上依次走过三个组件：关键编码器（第4.1节（https://arxiv.org/html/2606.26476#S4.SS1））、热启动机制（第4.2节（https://arxiv.org/html/2606.26476#S4.SS2））、存储值质量（第4.3节（https://arxiv.org/html/2606.26476#S4.SS3））。将每个组件的诊断线索与三组件分解中的验证点对齐：对于关键质量，我们检查编码器是否在嵌入空间中对齐图；对于热启动机制，我们测试如果提供完美检索值，精化是否成功；对于存储值质量，我们分析冷模型在作为热启动种子时的预测质量。

检索预热能量基推理：用于结构推理任务上扩散作为推理的五臂消融方法论

相似文章

重新思考推理密集型检索：评估并提升智能体搜索系统中的检索器

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

通过自我调节的模拟规划实现高效代理推理

GraphReAct：面向多步图推理的推理与行动

检索、整合与综合：空间-语义接地潜层视觉推理

提交意见反馈