WarmPrior: 利用时间先验拉直流匹配策略

arXiv cs.LG 2026/05/15 04:00 论文

摘要

介绍了WarmPrior，该方法将流匹配策略中的标准高斯源替换为来自近期动作历史的时间约束先验，通过生成更直的路径概率，持续提升机器人操控任务的成功率。

arXiv:2605.13959v1 公告类型：新摘要：基于扩散和流匹配的生成式策略已成为视觉运动机器人控制的主导范式。我们证明，将标准的高斯源分布替换为WarmPrior——一种由容易获取的近期动作历史构建的简单时间约束先验——能够持续提升机器人操控任务的成功率。我们将这一提升归因于显著更直的路径概率，这与Rectified Flow中最优传输耦合的效果相呼应。除了标准的行为克隆，WarmPrior还重塑了先验空间强化学习中的探索分布，提高了样本效率和最终性能。总体而言，这些结果揭示了源分布是生成式机器人控制中一个重要且未被充分探索的设计维度。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:25

# WarmPrior：利用时间先验使流匹配策略路径更直
来源：https://arxiv.org/html/2605.13959

###### 摘要

基于扩散和流匹配的生成式策略已成为视觉运动机器人控制的主流范式。我们证明，用 *WarmPrior*（一种基于可直接获取的近期动作历史构建的简单时间锚定先验）替换标准高斯源分布，能够持续提升机器人操作任务的成功率。我们将这一增益归因于显著*更直*的概率路径，这与修正流中最优传输耦合的效果相呼应。除了标准行为克隆外，*WarmPrior* 还重塑了先验空间强化学习中的探索分布，同时提升了样本效率和最终性能。总的来说，这些结果将*源分布*确定为生成式机器人控制中一个重要且尚未充分探索的设计维度。项目主页：https://sinnnj.github.io/WarmPrior/。

## 1 引言

学习机器人操作的生成式策略，如扩散策略和流匹配策略，已成为多模态行为克隆的主流范式 Chiet al. (2023)¹；Bjorcket al. (2025b)²；Blacket al. (2025a)³。在这些框架中，神经场将样本从固定的源分布传输到动作块的数据流形。几乎普遍地，这个源分布是各向同性高斯分布 \(\mathcal{N}(0,I)\)，这一惯例继承自扩散的从噪声中降噪的解释 Hoet al. (2020)⁴；Songet al. (2021)⁵，并被流匹配 Braunet al. (2024)⁶；Huet al. (2024)⁷及其少步策略后代 Prasadet al. (2024)⁸；Luet al. (2024)⁹；Wanget al. (2025)¹⁰所保留，而进展则通过网络、插值器和积分器推动。*先验空间* 却悄无声息地被搁置一旁。然而，随着降噪时间表缩短，起始点吸收了原本由积分步承担的大部分负担。一个无状态、无信息的源仍然对机器人运动的连续、时间相关性质视而不见，迫使策略从头重建每个动作块。

¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ (注：原文上标编号对应引用，此处按顺序列出，实际保留原文链接)

参见图 1 说明：WarmPrior。标准流匹配策略将样本从无上下文的 \(\mathcal{N}(0,I)\) 传输到动作流形（左）。WarmPrior 从锚定在最近过去动作块（Past）或模型自身对当前块的先前预测（Preview）上的时间锚定高斯分布开始传输（中、右）。由此产生的概率路径更短、更直，且在连续块之间具有时间相关性。

我们引入 WarmPrior，它用 *时间锚定* 先验替换这种无状态的源，其均值锚定在近期动作历史上（图 1）。我们以两种最小变体实现它：*WP-Past* 将先验锚定在先前执行的动作块上，而 *WP-Preview* 训练策略在每个推理步骤预测两倍块长度，并重用模型自身对当前块的先前预测作为先验均值。两者都添加残差高斯扰动 \(\sigma \varepsilon\)，使源保持为适当分布，且都不触及网络、插值器和积分器（第 3 节）。

这种刻意最小化的干预在三个独立维度上带来累积增益。*几何上*，从接近目标流形开始缩短了传输距离并拉直了学习到的概率路径，充当隐式最优传输耦合，抑制了网络本应平均化的不可约终点歧义（第 5.1 节）。*时间上*，残差尺度 \(\sigma\) 成为在 rollout 内承诺与多模态表达能力之间的连续旋钮，提供了动作块显式强制执行的隐式一致性形式，甚至在禁用块时能基本恢复基线性能（第 5.2 节）。*下游*，WarmPrior 将先验空间强化学习的搜索空间围绕时间锚定均值重新居中并缩小，因此在预训练策略之上进行更紧的残差动作在样本效率和渐近性能上都优于原始 DSRL Wagenmakeret al. (2025)¹¹（第 5.3 节）。

¹¹ Wagenmakeret al. (2025) (链接)

实验上，在 Robomimic、MimicGen 和真实 Franka Research 3 设置中，WarmPrior 在扩散策略骨干 Chiet al. (2023)¹²和 VLA 模型 GR00T N1.5 Bjorcket al. (2025a)¹³; Blacket al. (2025a)¹⁴上均持续提升成功率；在最低推理预算和最难任务上提升最大，此时流曲率影响最为显著（第 4 节）。综上所述，这些结果将*源分布* 从一个继承的默认设置提升为生成式机器人控制中首要且此前未充分探索的设计维度。

¹² ¹³ ¹⁴ (链接)

## 2 背景与相关工作

#### 流匹配策略。

流匹配 Lipmanet al. (2023)¹⁵; Albergoet al. (2025)¹⁶训练一个速度网络 \(v_\theta(t, a_t, o)\) 沿着线性插值 \(a_t = (1-t)a_0 + t a_1\) 在源 \(a_0 \sim p_0\) 和数据 \(a_1 \sim p_{\mathrm{data}}(\cdot \mid o)\) 之间，并通过从 \(a_0\) 积分 \(\dot{a}_t = v_\theta(t, a_t, o)\) 进行采样。这一范式支撑了用于行为克隆的扩散和流匹配策略 Chiet al. (2023)¹⁷; Janneret al. (2022)¹⁸; Braunet al. (2024)¹⁹; Huet al. (2024)²⁰; Chisariet al. (2024)²¹以及视觉-语言-动作模型 Bjorcket al. (2025b)²²; Blacket al. (2025a)²³; Physical Intelligenceet al. (2025)²⁴。几乎所有模型都使用 \(p_0 = \mathcal{N}(0,I)\)；我们的工作重新审视了这一选择。

¹⁵-²⁴ (链接)

#### 最优传输耦合与拉直的流。

在独立耦合 \((a_0, a_1) \sim p_0 \otimes p_{\mathrm{data}}\) 下，交叉轨迹迫使速度网络对歧义终点进行平均，产生弯曲的路径。修正流 Liuet al. (2023)²⁵、多样本流匹配 Pooladianet al. (2023)²⁶、OT-CFM Tonget al. (2024a)²⁷以及薛定谔桥变体 Shiet al. (2023)²⁸; Tonget al. (2024b)²⁹都重塑这一*耦合*以近似动态 OT。WarmPrior 是互补的：它保持耦合独立，而是重塑*源分布*，使流从接近数据的位置开始，从而拉直路径（第 5.1 节），无需任何 OT 求解器或重训练阶段。

²⁵-²⁹ (链接)

#### 用于生成式机器人策略的知情先验。

修改生成式策略的源是一个小型但新兴的方向。BRIDGER Chenet al. (2024)³⁰用数据感知的非高斯源策略替换高斯源，并通过随机插值器将其桥接到专家分布。在并发工作中，STEP Li et al. (2026)³¹训练一个辅助动作预测器，其输出经调度高斯噪声扰动后，注入到*中间*降噪步骤而非 \(t=0\)，因此热启动位于扩散轨迹内部。A2A Jia et al. (2026)³²也将先验锚定在过去的动作上，但将其确定性编码到潜在源中，并在其上组合确定性 ODE 和解码器，使其本质上成为一个历史条件的*确定性流传输模型*，而非随机生成采样器。相比之下，WarmPrior 端到端地保持随机流匹配公式，并聚焦于如何构建*先验空间* \(p_0\) 本身（第 3 节）。

³⁰-³² (链接)

算法 1 带 WarmPrior 的 FM 策略训练与推理。

1: 输入：数据集 \(\mathcal{D}\)，插值器 \((\alpha, \beta)\)，噪声尺度 \(\sigma\)，块长度 \(H\)（对于 Past 预测长度为 \(H\)，对于 Preview 为 \(2H\)）
2: 参数：速度网络 \(v_\theta\)（可学习）

训练
3: for 每次迭代 do
4: 采样 \((o, a_1, i) \sim \mathcal{D}\)
5: 抽取 \(\varepsilon \sim \mathcal{N}(0,I)\) 匹配 \(a_1\)；设 \(a_0 \leftarrow \varepsilon\)
6: if Past then
7: \(a_0 \leftarrow a^{\mathrm{data}}[i-H:i] + \sigma \varepsilon\) （当 \(i \geq H\) 时）
8: else if Preview then
9: \(a_0[0:H] \leftarrow a_1[0:H] + \sigma \varepsilon[0:H]\)
10: end if
11: \(t \sim \mathcal{U}(0,1)\)
12: \(a_t \leftarrow \alpha(t) a_0 + \beta(t) a_1\)
13: \(\mathcal{L} \leftarrow \| v_\theta(t, a_t, o) - (\dot{\alpha} a_0 + \dot{\beta} a_1) \|_2^2\)
14: 对 \(\theta\) 进行梯度步
15: end for

推理
16: \(\hat{a}^{\mathrm{prev}} \leftarrow \varnothing\)；重置环境，观察 \(o\)
17: while 回合未结束 do
18: 抽取 \(\varepsilon \sim \mathcal{N}(0,I)\)；设 \(a_0 \leftarrow \varepsilon\)
19: if Past 且 \(\hat{a}^{\mathrm{prev}} \neq \varnothing\) then
20: \(a_0 \leftarrow \hat{a}^{\mathrm{prev}} + \sigma \varepsilon\)
21: else if Preview 且 \(\hat{a}^{\mathrm{prev}} \neq \varnothing\) then
22: \(a_0[0:H] \leftarrow \hat{a}^{\mathrm{prev}}[H:2H] + \sigma \varepsilon[0:H]\)
23: end if
24: \(\hat{a} \leftarrow \textsc{FMSample}(v_\theta, a_0, o)\)
25: 执行 \(\hat{a}[0:H]\)；观察下一个 \(o\)
26: \(\hat{a}^{\mathrm{prev}} \leftarrow \hat{a}\)
27: end while

## 3 WarmPrior

WarmPrior 仅修改流匹配策略的源分布：它重塑 \(p_0\)，同时不触及网络、插值器和训练目标。我们将其实现为两种最小变体，*WarmPrior-Past*（WP-Past）和 *WarmPrior-Preview*（WP-Preview），它们仅在于先验均值如何锚定到智能体自身的动作历史上存在差异。下面我们形式化通用模板（算法 1），然后依次指定每个变体。

#### 公式化。

设 \(a_0\) 表示从先验中抽取的样本，流匹配 ODE 将其传输到预测的动作块，形状对 Past 为 \(H \times d_a\)，对 Preview 为 \(2H \times d_a\)。对于预测位置上的热索引集 \(\mathcal{W}\)（冷补集为 \(\mathcal{C}\)），以及定义在 \(\mathcal{W}\) 上的均值 \(\mu\)，WarmPrior 采样

\[
a_0[\tau] = 
\begin{cases}
\mu_\tau + \sigma \varepsilon_\tau, & \tau \in \mathcal{W},\\
\varepsilon_\tau, & \tau \in \mathcal{C},
\end{cases}
\quad \varepsilon \sim \mathcal{N}(0,I).
\tag{1}
\]

冷区域保持原始流匹配先验不变，因此没有可靠锚定的位置与标准流匹配基线完全一致。标量 \(\sigma > 0\) 控制热位置上的残差噪声，使热区域保持为适当分布而非确定性点质量；我们下文固定每个变体的 \(\sigma\)，并在第 5.2 节中将其作为多模态旋钮重新审视。在此公式下，WarmPrior 由对 \((\mathcal{W}, \mu)\) 以及预测长度完全确定。我们的主要目标是从*合理的候选目标动作*（而非纯噪声）开始生成流，并提出两种变体，它们区别在于先验均值 \(\mu\) 如何锚定。

#### WarmPrior-Past。

最简单的合理目标是先前的动作块：WP-Past 预测一个长度为 \(H\) 的单一动作块，并将 \(\mu\) 锚定在先前动作块上。

在训练中，对于每个索引为 \(i\) 的样本，我们从回放缓冲区中检索前 \(H\) 个动作 \(a^{\mathrm{data}}_{i-H:i}\)（归一化到训练动作空间），通过二分搜索验证窗口是否在单个回合内，然后设置：

\[
\mu_\tau^{\mathrm{Past}} = a^{\mathrm{data}}[i-H+\tau], \quad \text{对于 } \tau \in \{0,\dots,H-1\}.
\tag{2}
\]

当窗口跨越回合边界时（例如在演示开始时），样本回退到 \(\mathcal{W}=\emptyset\)。

在推理中，我们直接使用先前执行的动作块，设置 \(\mu_\tau^{\mathrm{Past}} = \hat{a}^{\mathrm{prev}}_\tau\) 且 \(\mathcal{W}=\{0,\dots,H-1\}\)，在第一个块时回退到 \(\mathcal{W}=\emptyset\)。我们对此变体使用 \(\sigma=0.5\)。

#### WarmPrior-Preview。

WP-Preview 训练策略预测比所需多一个块：它不是预测一个长度为 \(H\) 的单一动作块，而是每个推理步骤预测 \(2H\) 个动作，并仅执行前 \(H\) 个。后 \(H\) 个步骤作为下一个块的*预览*，是模型自身对未来动作的预测。当下一个决策步骤到来时，这个预览正好与新预测的前 \(H\) 个位置对齐，为下一个生成过程提供了自然且高度准确的先验均值。关键的是，在训练和推理中，\(2H\) 步生成被严格划分：前 \(H\) 步（要执行的动作）从 WarmPrior 开始生成（\(\mathcal{W}=\{0,\dots,H-1\}\)），而后 \(H\) 步（预览）从纯高斯噪声开始生成（\(\mathcal{C}=\{H,\dots,2H-1\}\)）。

在训练中，我们面临一个鸡生蛋问题：理想的先验均值是模型自身的过去预览，而这在模型训练前无法获得。然而，ground-truth 目标本身恰好是一个完美校准的预览会收敛到的极限：在收敛时，模型对当前块的先前预测应与该块本身一致。因此，我们可以直接用 ground-truth 目标本身作为完美校准预览的代理：

\[
\mu_\tau^{\mathrm{Preview}} = a_1[\tau], \quad \text{对于 } \tau \in \{0,\dots,H-1\},
\tag{3}
\]

WarmPrior: 利用时间先验拉直流匹配策略

相似文章

基于图信息流匹配的时空插补

利用流匹配捕获非平衡随机系统中的非马尔可夫动力学

遵循均值：参考引导的流匹配

@HuggingPapers: Stable-GFlowNet：通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…

(HB-ARFM) 历史引导的逆向沸腾重构流匹配方法

提交意见反馈