@verityw_: 通用机器人策略能学习许多有用技能。面对新任务时,我们如何触发相关行为?我们…

X AI KOLs Following 论文

摘要

介绍了流反转引导(FRS)方法,通过反向并重新去噪一个流匹配通用策略,将语义推理产生的粗略动作细化为精确的机器人动作,从而改进零样本控制并支持策略学习。

通用机器人策略能学习许多有用技能。面对新任务时,我们如何触发相关行为?我们提出了流反转引导(FRS):一种将语义推理产生的粗略动作细化为相似精确动作的方法! https://t.co/BRdvq0OVg0 1/N https://t.co/ua8lRrgmzM
查看原文
查看缓存全文

缓存时间: 2026/06/12 17:00

通用机器人策略能够学习许多有用的技能。面对新任务时,我们如何引出相关的行为?我们引入了流逆转操控(FRS):一种将语义推理产生的粗略动作精炼为类似精确动作的方法! https://t.co/BRdvq0OVg0 1/N https://t.co/ua8lRrgmzM


通过流逆转操控改进机器人通用策略

来源:https://flow-reversal-steering.github.io/ FRS (https://flow-reversal-steering.github.io/#frs)零样本 (https://flow-reversal-steering.github.io/#zero-shot)DSBC (https://flow-reversal-steering.github.io/#dsbc)DSRL + FRS (https://flow-reversal-steering.github.io/#dsrl)## 流逆转操控

1斯坦福大学,2加州大学伯克利分校*同等贡献

摘要

通用策略可以从多样的机器人数据集中学习广泛的技能。为了解决或改进具有挑战性的新任务,我们需要一种方法来推断并调用策略丰富行为先验中的适当动作,尤其是在直接命令策略失败的情况下。我们专注于流匹配通用策略,并提出 流逆转操控(FRS) :一种方法,它接收次优但“合理”的动作,通过反向流策略找到其潜在噪声,并将它们映射到附近通用策略的动作模式。我们在多个模拟和真实世界操作场景中评估了FRS。首先,FRS可以将来自人类或视觉语言模型(VLM)的粗略语义指导转化为相应的良好机器人动作,从而改进零样本控制。这些增益可以通过行为克隆进行蒸馏,通过训练一个辅助策略输出噪声,该噪声被通用策略映射为良好动作 —— 在不到一分钟的训练中,绝对任务成功率提升高达95%。最后,FRS通过利用语义知识引导强化学习,改进了标准RL无法改进的多个任务,从而实现策略提升。

流逆转操控(FRS)

流逆转操控:来自推理器的粗略参考动作通过流场反向传播到潜在噪声,然后去噪为精确的分布内动作。

FRS将粗略参考动作反向通过流策略,找到潜在噪声,这些噪声映射自附近行为模式的精确动作。

t = 1.00

通过流逆转获取噪声通过流匹配进行去噪

通用流匹配机器人策略学习丰富的先验行为。这些策略包含新任务所需的许多技能——前提是能够引出这些适当的行为。我们如何利用语义知识来引导通用策略为新的任务采样“合理”的动作?

因此,我们提出 流逆转操控(FRS):一种通过找到映射到语义合理行为的底层潜在噪声来引导通用流策略动作采样的方法。通过将粗略参考动作(大致捕捉了机器人应如何移动)反向通过流策略,FRS找到了近似映射到该动作的噪声。当随后进行去噪时,FRS有效地从通用策略的先验中找到与参考动作相似的附近良好行为模式

标准流去噪

# 从流策略采样动作(K步积分)
x ~ N(0, I)                  # 采样噪声
dt ← 1 / K
for t in 0 ... 1:              # K步前向,步长dt
    x ← x + dt·vθ(x, t)
return x                     # 动作样本

流逆转操控

# 使用参考动作 a_ref 进行操控(K步积分)
x ← a_ref
dt ← 1 / K
for t = 1 ... 0:               # 反向流 → 噪声
    x ← x - dt·vθ(x, t)
for t = 0 ... 1:               # 去噪 → 附近模式
    x ← x + dt·vθ(x, t)
return x                     # 精炼后的分布内动作

因此,这使得语义推理器(如人类或VLM)能够引导策略朝向与任务相关的良好行为。FRS产生的噪声和动作也可用于策略学习和改进,尤其是在噪声空间中的行为克隆和强化学习。

流逆转操控流水线概述。

FRS流水线概述。

我们使用最先进的π0.5视觉-语言-动作模型(VLA)(https://arxiv.org/abs/2504.16054)在模拟LIBERO(https://libero-project.github.io/main.html)和真实世界DROID(https://droid-dataset.github.io/)操作任务中演示 FRS。我们提出三种使用 FRS 的方式:

  1. 零样本 FRS(https://flow-reversal-steering.github.io/#zero-shot):直接执行 FRS 从粗略的人类或VLM引导中引出的精炼动作,无需额外训练。
  2. 通过行为克隆的扩散操控(DSBC)(https://flow-reversal-steering.github.io/#dsbc):通过监督学习将来自流逆转的良好噪声蒸馏到噪声策略中。
  3. 通过强化学习的扩散操控(DSRL)+ FRS(https://flow-reversal-steering.github.io/#dsrl):使用 FRS 轨迹引导噪声空间强化学习。

零样本流逆转操控

FRS将粗略动作转化为来自通用策略先验的更好细粒度动作。使用 FRS 的最简单方式是直接执行这些精炼动作,无需任何训练。零样本 FRS 推理循环包括:(1)向推理器(如人类或VLM)查询粗略参考动作,(2)通过流逆转传递参考动作以找到对应的噪声,(3)对该噪声进行去噪以获得每一步要执行的最终动作。

我们使用Gemini-ER-1.6 VLM(https://deepmind.google/models/gemini-robotics/)来可扩展地生成语义上有意义的粗略方向性参考动作,用于在LIBERO模拟器中进行评估。

零样本 FRS 允许 VLM 基于其语义推理引导通用策略,提升在 LIBERO 上的性能。

零样本 FRS 在 LIBERO 任务上优于基础 VLA。零样本 FRS 将粗略的 VLM 动作转化为有效的机器人动作,优于基础策略和先前的操控方法。零样本 FRS 在 LIBERO 上优于基础 VLA。在基础策略成功率 ≤ 2% 的困难任务中,42 个任务中有 11 个通过零样本 FRS 获得了至少 10% 的绝对成功率提升。其他操控基线仅以这种方式提升了 3 或 4 个任务,表明 FRS 在低成功率场景中更有效——这些场景对于通用策略改进尤其困难。FRS 也优于直接执行 VLM 动作,表明流逆转是对粗略参考动作进行 精炼,而非简单重建。

通过行为克隆的扩散操控(DSBC)

流策略可以通过小型辅助噪声策略进行操控,这些小型策略输出噪声,而通用流策略将其映射为良好动作。然而,找到好的噪声可能具有挑战性——像通过强化学习的扩散操控(DSRL)(https://arxiv.org/pdf/2506.15799)这样的先前工作需要通过试错和 Q 学习来找到好的噪声。相比之下,流逆转在给定参考动作时可以快速且可扩展地识别出好的噪声。

因此,流逆转使得通过 监督学习 训练噪声操控策略成为可能,而不是昂贵的强化学习。我们自然地将其称为 通过行为克隆的扩散操控(DSBC)

真实世界(DROID)

使用 DSBC 训练的噪声策略可以在真实世界的 DROID 任务上操控通用 VLA。

真实世界 DSBC 结果显示在六个 DROID 任务上成功率为 80%,而基础 VLA 为 20%。

DSBC 通过在 FRS 数据上训练改进了真实世界任务性能。

DSBC 在每任务 10 次成功的人类操控 FRS 轨迹上训练后,在六项 DROID 任务上显著优于基础 π0.5 VLA。使用等效流策略的标准 BC 在该数据规模下完全失败。

离线 DSBC(我们的方法)解决了精确挂胶带任务,而基础 VLA 和标准流 BC 均失败。

DROID 任务上的离线 DSBC 结果。DSBC 也可以完全在固定遥操作轨迹数据集上离线训练。或者,DSBC 也可以与标准的 离线 机器人演示数据一起使用,例如通过遥操作收集的数据。流逆转可以用近似映射到对应动作块(action chunk)的噪声增强每一帧,然后 DSBC 噪声策略可以在该增强数据集上训练。我们在一个更精确的挂胶带任务上演示了这一点,训练数据为 20 次遥操作演示。

模拟(LIBERO)

DSBC 将 FRS 轨迹蒸馏后,在 LIBERO 上达到与零样本 FRS 相当的性能。DSBC 在潜在噪声动作上匹配零样本 FRS,并在机器人动作上优于标准 BC。我们还在 LIBERO 上评估了 DSBC,它将零样本 VLM FRS 在 15 个任务上的性能增益进行蒸馏,优于标准 BC。DSBC 也非常高效:每个噪声策略的训练时间不到 1 分钟,GPU 内存使用约 1 GB,且无需加载完整的 VLA。

我们假设,当噪声策略进入分布外状态时,VLA 会将其输出映射回合理的分布内动作,从而提供隐式的抗复合误差鲁棒性。

通过强化学习的扩散操控(DSRL)+ FRS

使用 FRS 轨迹引导 DSRL 可以在困难任务上实现更快的学习和更高的最终成功率。我们为 DSRL + FRS 提出两种简单的增强方法:(1)用零样本 FRS 轨迹预填充回放缓冲区;(2)在成功轨迹的噪声动作上添加 BC 辅助损失。

DSRL 加上 FRS 在 LIBERO 任务上优于标准 DSRL。

**左图:**DSRL + FRS 在 15 个有效零样本操控任务上。**右图:**在 FRS 和基础策略均表现不佳的 10 个困难任务上,即使只使用一次成功的 FRS 轨迹也能显著改善 RL。

在 15 个 LIBERO-90 任务上,它比标准 DSRL 和 PLD 风格的残差 RL 学习更快,最终成功率更高。在基础 VLA 成功率约 0%、零样本 FRS 仅达 8% 的 10 个更困难任务上,即使只有一次成功的操控轨迹,也能使 DSRL 学习更快更好。通过在训练早期将学习器引导至有语义意义的行为,DSRL + FRS 在标准通用 RL 难以应对的稀疏奖励场景中提升了性能。

例如,DSRL + FRS 学会了任务 52:拿起牛奶并放入篮子,而标准 DSRL 完全失败,因为基础 VLA 在没有 VLM 语义引导的情况下难以解决该任务。

BibTeX

@article{tang2026frs,
  author  = {Andy Tang and William Chen and Andrew Wagenmaker and Chelsea Finn and Sergey Levine},
  title   = {Improving Robotic Generalist Policies via Flow Reversal Steering},
  year    = {2026},
}

相似文章

RoboLab:用于任务通用策略分析的高保真仿真基准

Hugging Face Daily Papers

# 论文页面 - RoboLab:用于任务通用策略分析的高保真仿真基准 来源:[https://huggingface.co/papers/2604.09860](https://huggingface.co/papers/2604.09860) ## 摘要 RoboLab 是一个仿真基准框架,通过可扩展的真实任务生成和对策略在受控扰动下行为的系统分析,解决机器人策略评估中的局限。

从仿真泛化

OpenAI Blog

# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分

超越引导向量:用于推理时干预的基于流的激活引导

arXiv cs.CL

本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。