Flow Reasoning Models: 通过迭代自我精化扩展推理能力
摘要
Flow Reasoning Models (FRMs) 为离散流模型在结构化推理任务上引入了一个训练和测试时扩展框架。通过使用 self-verification 和 self-conditioning,FRMs 在 Sudoku 和 Zebra 谜题上达到了近乎100%的求解率,而所需的迭代次数远少于之前的基准模型。
arXiv:2606.29150v1 Announce Type: new
摘要:离散流模型最近在少步文本生成任务上展现了有前景的性能;然而,当将其直接应用于诸如 Sudoku 和 Zebra 谜题等结构化推理任务时,它们会自信地收敛到错误答案(仅能解决 $\sim$36% 的 Sudoku 谜题)。我们提出了 Flow Reasoning Models (FRMs),这是一个用于离散流模型在结构化推理上的训练和测试时扩展框架。我们观察到,尽管求解率较低,但流模型可以作为自身的验证器。正确答案是去噪动力学中的一个稳定不动点,在重新加噪并重新求解后会回到自身。这实现了一种测试时扩展范式:提出许多候选解并保留那些动态稳定的解,仅凭此方法就能在 Sudoku-Shah(~$100\%$)和 Zebra($95.9\%$)上达到高求解率。这种方法甚至能够推广到更困难的分布外谜题,如 Sudoku-Extreme($96.1\%$),而从未在那些分布上训练过。然而,这种纯搜索方法在生成错误候选解上浪费了大量计算。因此,我们设计了一种训练方法以提高基础模型的效率。首先,我们训练带有 self-conditioning 通道的流模型,并在推理时关闭该通道,使其能够精化自身过去的预测。其次,我们使用 direct preference optimization 训练模型以避免自身的失败生成。这些改变显著提高了基础模型的效率,使其仅需 $7$ 次前向传递就能在 Sudoku 上达到 $99.2\%$ 的求解率,相比我们进行比较的最强匹配 masked-diffusion 基线实现相同准确率所需的传递次数减少了 $8\times$ 以上。当与测试时扩展结合时,这使得流模型能够更高效地解决困难的分布外谜题(例如 Sudoku-Extreme)。
查看缓存全文
缓存时间: 2026/06/30 05:32
# 流推理模型:通过迭代自我精化扩展推理能力 来源:https://arxiv.org/html/2606.29150 Alec Helbling\* 1,3,4 Andrey Bryutkin\* 2,3,4 Mauro Martino3,4 Nima Dehmamy3,4 Hendrik Strobelt3,4 1佐治亚理工学院 2麻省理工学院 3麻省理工学院-IBM计算研究实验室 4IBM研究实验室 ###### 摘要 离散流模型最近在少步文本生成任务上展现出有前景的性能;然而,当直接应用于数独和斑马谜题等结构化推理任务时,它们会自信地收敛到错误答案(仅能解决约~36%的数独谜题)。我们提出了流推理模型(Flow Reasoning Models, FRMs),这是一种用于流模型结构化推理的训练和测试时扩展框架。我们观察到,尽管求解率较低,但流模型可以充当自身的验证器。这催生了一种测试时扩展范式:提出大量候选解,保留那些动态稳定的解,仅凭此方法即可在数独(100%)和斑马谜题(95.9%)上达到高求解率,甚至能泛化到更难分布外谜题,如数独极难版(96.1%),且从未在该分布上训练过。然而,这种纯搜索方法会浪费大量计算生成错误的候选解。因此,我们设计了一套训练方案来提升基础模型的效率。首先,我们训练带有自条件化通道的流模型,并在推理时关闭该通道,使模型能够精化自身过去的预测。其次,我们使用直接偏好优化训练模型,使其避免自身失败的生成结果。这些改进显著提升了基础模型的效率,使其仅用7次前向传递即可在数独上达到99.2%的准确率,相比要达到相同准确率所需的最强匹配掩码扩散基线,前向传递次数减少了8倍以上。当与测试时扩展相结合时,流模型能够更高效地解决困难的分布外谜题(例如数独极难版)。 11脚注:等额贡献。††脚注:联系邮箱:[email protected]。 ## 1 引言 扩散和流模型在图像和音频等连续模态中占据主导地位,但在语言任务上落后于自回归模型。最近的掩码扩散模型(Lou等人,2024 (https://arxiv.org/html/2606.29150#bib.bib1);Sahoo等人,2024 (https://arxiv.org/html/2606.29150#bib.bib2))在结构化推理任务上展现出有前景的性能,这类任务需要生成全局一致的答案,而非局部合理的下一个token。然而,流模型在结构化推理方面的能力仍研究不足。我们将离散流模型(Potaptchik等人,2026 (https://arxiv.org/html/2606.29150#bib.bib55);Lee等人,2026 (https://arxiv.org/html/2606.29150#bib.bib8))应用于数独和逻辑谜题等约束满足问题,发现其性能较差:随机采样时,一个训练于数独的流模型仅能解决约36%的谜题。然而,尽管存在这些失败,我们发现离散流的去噪动力学暴露了一个内部信号,可以区分正确与错误的解。具体来说,正确解是去噪过程的一个稳定不动点:对其重新加噪并求解会返回相同的答案,而许多错误状态是不稳定的,会发生变化。读取这种稳定性使得模型识别自身正确解的能力远优于其采样器生成正确解的能力,这产生了生成-验证差距。这一差距提供了直接的测试时扩展策略:不是信任单个样本,而是提出大量候选解,并保留模型自身稳定性信号所接受的解。扩展这种搜索将我们的约束满足任务提升到高求解率——数独(100%)、斑马谜题(95.9%)——甚至泛化到分布外的数独极难版(96.1%),而模型从未在该分布上训练过。这种搜索虽然有效,但代价高昂,因为要达到高准确率,每个问题可能需要大量候选解。 参照图注 图1:流推理模型在稳定不动点处找到正确解。(a) 离散流模型的动力学识别样本的正确性:正确解位于一个稳定的盆地中,在扰动后始终回到自身,而错误状态则占据不稳定的盆地,在重新求解时会漂移开。(b) 我们通过带有自条件化的迭代精化进行推理,将模型之前的logits ℓ_prev 作为条件馈送回,驱动每次尝试朝向稳定不动点。(c) 将此方法与使用模型自身正确性内部信号的自验证相结合,是一种强大的测试时扩展方法,能够饱和数独极难版的示例,尽管仅训练于简单得多的数独沙赫谜题,仍能达到97%的准确率。为清晰起见,网格绘制为4×4示意图;实际数独和数独极难版任务为完整的9×9谜题。 我们从两个方面改进基础模型:推理时和训练时。首先,我们修改流模型,使其在推理时通过自条件化(Chen等人,2023 (https://arxiv.org/html/2606.29150#bib.bib9))修正自身过去的预测,即每步馈送模型之前的答案,使得单次尝试逐渐精化至稳定不动点。这赋予了流模型一种跨精化步骤的记忆形式,将其与同样迭代计算至不动点的循环深度和循环变换器(Geiping等人,2025 (https://arxiv.org/html/2606.29150#bib.bib56);Fein-Ashley和Rashidinejad,2026 (https://arxiv.org/html/2606.29150#bib.bib57);Movahedi等人,2026 (https://arxiv.org/html/2606.29150#bib.bib61))联系起来。FRMs的不同之处在于它们从该迭代中读取的内容:完成的流-LM状态被重新加噪并重新求解,使得稳定性成为测试时无需标签的验证器,而训练目标则使用训练时的真实/自挖掘配对来重塑相同的不动点几何。其次,我们使用一种称为FlowDPO的直接偏好目标来训练模型纠正自身错误,该目标推动模型远离其自身生成的不正确解,朝向正确解,比流模型通常使用的最大似然目标更具针对性。这些改进共同使模型成为更高效的提议者:仅需7次前向传递即可在数独上达到99.2%的准确率,相比要达到相同准确率所需的最强掩码扩散基线,前向传递次数减少了8倍以上,并且在斑马谜题上也有一致的提升。 - • 用于结构化推理的流推理模型。我们将离散流语言模型转化为可检查任务的有状态求解器,通过将其作为自条件化的不动点迭代运行,而非一次性并行采样器(第2节 (https://arxiv.org/html/2606.29150#S2))。 - • 带有无验证器重启的自条件化精化。每步馈送模型之前的预测,使单次尝试随时间精化;随后通过稳定性读取接受稳定解或重新加噪并再次精化,实现了无需外部验证器的测试时扩展(算法 LABEL:alg:self-refine)。 - • 不动点稳定性作为内部正确性信号。重新加噪候选解、重新求解并测量漂移量,可得到高AUROC信号:正确解在模型动力学下是鲁棒的,而许多错误解则会漂移开。我们使用该信号在困难分布外数据(如数独极难版)上拒绝虚假状态(第2.3节 (https://arxiv.org/html/2606.29150#S2.SS3))。 - • FlowDPO重塑相同的不动点景观。该成对目标将真实解与自挖掘的自信错误(在错误token处)进行对比,优于仅使用交叉熵的控制组,并将单次数独pass@1提高一倍以上(在审计的EMA参考机制下,从35.8%提升至80.6%;第4.5节 (https://arxiv.org/html/2606.29150#S4.SS5))。 ## 2 流推理模型 流推理模型是一种条件离散流语言模型,并非作为一次性采样器运行,而是作为携带自身运行预测记忆的迭代。在每个去噪步骤中,模型以其当前相信的答案为条件(自条件化,第2.2节 (https://arxiv.org/html/2606.29150#S2.SS2)),因此生成变成了一个动力学系统,其状态是模型不断演化的猜测。其前提很简单:在我们研究的可检查任务上,正确的完成状态表现为该系统的一个稳定不动点,而许多错误在小扰动下是脆弱的。从这个角度看,推理是朝向稳定不动点的迭代,这一视角与循环深度和吸引子解释下的推理(Geiping等人,2025 (https://arxiv.org/html/2606.29150#bib.bib56);Fein-Ashley和Rashidinejad,2026 (https://arxiv.org/html/2606.29150#bib.bib57))一致。 参照图注 图2:自条件化将单次数独求解精化为正确网格。从相同的初始噪声开始,每个子图将上一次的预测作为自条件化反馈;错误单元格(红色)从28→26→3→0。未使用重启或外部验证器。 本节设置对象,然后以两种方式作用于其不动点。首先,我们通过自条件化驱动动力学,使得单次尝试能够自我精化。其次,我们通过重新加噪已完成的解并检查其是否返回,来读取动力学。下一节使用相同的固定点视角,通过FlowDPO重塑景观。 ### 2.1 流推理模型框架 #### 离散流语言模型。 流语言模型(Lee等人,2026 (https://arxiv.org/html/2606.29150#bib.bib8))通过在词汇表的嵌入空间中运行连续流来生成离散序列:一个包含L个token的序列w=(w_1,...,w_L),其中w_i∈V,通过token嵌入e:V→R^d被提升为连续张量x_1=(e(w_1),...,e(w_L))∈R^{L×d},并通过最近嵌入(argmax)解码读回。在t=0时的高斯噪声ε∼N(0,I)与t=1时的数据通过线性插值连接: x_t = (1-t)ε + t x_1, (1) (随机插值/直线路径构造;噪声调度和引用见附录E (https://arxiv.org/html/2606.29150#A5));采样时,从t=0的噪声抽取开始,通过少量欧拉步积分学习的流至t=1时的干净嵌入,并解码为token。在这些步骤上闭合自条件化循环(见下文)使得该采样器成为本节其余部分分析其不动点的动力学系统。 #### 训练:交叉熵下的逐token分类器。 网络是去噪器,即给定噪声状态下干净端点的条件期望: D_t(x) := E[ x_1 | x_t = x ], v_t(x) = (D_t(x) - x) / (1 - t), (2) 其中线性插值(1)的速率v_t由D_t封闭形式恢复。由于x_1是token嵌入,该期望是词汇表上每个位置的后验。我们通过预测logit ℓ_θ(x_t,t)∈R^{L×|V|}以及单纯形上的token分布q_θ(·|x_t,t)=softmax(ℓ_θ(x_t,t))(Lee等人,2026 (https://arxiv.org/html/2606.29150#bib.bib8))来实现。由q_θ诱导的嵌入期望给出D_θ,从而得到式(2)中的速率。我们使用每个噪声水平上真实token的交叉熵来训练token分布: L_CE(θ) = E_{t,w,ε}[ -∑_{i=1}^L log q_θ(w_i|x_t,t) ], (3) 因此单次网络调用即可得到token分布、速率(通过式(2))以及读出的 ŵ_i = argmax_w q_θ(w|x_t,t)。使用交叉熵匹配这种分类后验,而非使用L2损失回归嵌入速率,正是流语言模型有效工作(Potaptchik等人,2026 (https://arxiv.org/html/2606.29150#bib.bib55))的原因。该目标教会了动力学,并创建了每个token的log分数,供验证器和FlowDPO后续重用。 参照图注 图3:自验证实现跨任务的测试时扩展。(左)我们的FRM训练方案在单次传递中使数独(沙赫)达到饱和,而测试时扩展允许即使较差的基础模型在若干轮后也能使任务饱和。(中)在困难的分布外数独极难版数据上,我们的自验证测试时扩展算法解决了~100%的任务;我们的FRM训练方案进一步提高了训练效率,在高精度端基础模型甚至超过FRM训练过的模型。(右)该方法也泛化到斑马谜题任务,我们看到扩展提升了两种模型的性能上限,而FRM同时提升了效率和上限。 #### 条件去噪器。 推理是有条件的:给定部分位置为线索tokens c,模型必须填充剩余的回答位置a。我们将完整的赋值写为y=(c,a),并用M表示计算损失或稳定性分数时所平均的位置。对于数独,这些是不受线索限制的回答单元格;线索单元格被钳制为其给定值,因此包含它们不会改变精确匹配评估。我们通过保持线索位置在每个噪声水平上干净并在采样过程中始终钳制它们,将流语言模型转化为条件掩码生成器,因此去噪器从条件分布 q_θ(a_i | x_t, c, t), (4) 预测回答单元格,并且式(3)的交叉熵只对M进行。如果一个解完成了赋值且任务检查器接受,则该解正确。该方法仅在训练和评估时使用检查器;在测试时,它用模型自身的不动点稳定性替代。 ### 2.2 在推理时学习自我精化 我们首先驱动动力学,使单次求解基于其自身之前的预测进行构建。一个普通的流采样器在每个欧拉步产生一个新的去噪估计,但下一步并不明确知道模型刚刚相信的是什么。自条件化提供了这种短时记忆(Chen等人,2023 (https://arxiv.org/html/2606.29150#bib.bib9)):logit网络接收第二个输入s,携带之前的预测: ℓ_θ(x_t, t, s), s = ℓ_prev, (5) 其中s=0恢复普通模型。该通道初始化为零,因此未训练的模型不变;在自条件化下,q_θ(·|x_t,t,s)=softmax(ℓ_θ(x_t,t,s))。训练和表示细节见附录A (https://arxiv.org/html/2606.29150#A1)。在欧拉步上闭合这个反馈环将采样转化为一个内部精化循环。从噪声 x_{t_0}=ε 开始,线索单元格被钳制且 ℓ^{(0)}=0,每次调用发射logits ℓ^{(j)}...
相似文章
ReasoningFlow: 用于理解LLM推理轨迹的篇章结构
介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。
FlowRAG:通过频率感知的多粒度图流协同显式推理
FlowRAG 提出了一种新颖的语义感知检索框架,该框架构建了四层异构图,并利用频率感知的加权流提取显式推理路径,在复杂推理基准测试中取得了最先进的性能。
工具即连续流:用于演进式智能体推理
本文介绍了 FlowAgent,这是一个新颖的框架,它利用条件流匹配将工具链重新概念化为连续轨迹生成,以提高长时序智能体推理的鲁棒性。
通过简单统一的缩放实现金牌级奥赛推理
本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。
通过自我调节的模拟规划实现高效代理推理
介绍了 SR²AM,一种通过自我调节的模拟规划实现高效代理推理的框架,在推理 token 减少 26-95% 的同时,达到了与 20-30 倍参数规模模型相竞争的性能。