FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

Hugging Face Daily Papers 2026/05/13 00:00 论文

vla frame-selection robot-learning policy-training data-efficient visual-language-action

摘要

FrameSkip是一种数据层的帧选择方法，通过基于动作变化和视觉一致性指标优先选择高重要性的帧，来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率，同时仅使用了20%的独特帧。

视觉-语言-动作(VLA)策略通常从密集的机器人演示轨迹中训练，这些轨迹通常通过远程操作收集，通过采样每一记录帧，仿佛它们都提供同等有用的监督。我们认为这种惯例造成了时间监督不平衡：长段的低变化片段主导训练流，而操作关键转换（如对齐、接触、抓取和释放）仅稀疏出现。我们引入FrameSkip，一种数据层的帧选择框架，它使用动作变化、视觉-动作一致性、任务进度先验和夹爪转换保留来对轨迹帧进行评分，然后在目标保留比率下将训练样本重新映射到高重要性帧。由于FrameSkip仅在数据加载器中操作，因此它不改变VLA架构、动作头、训练目标和推理过程。在RoboCasa-GR1、SimplerEnv和LIBERO上，FrameSkip在成功率保持权衡上优于全帧训练和更简单的帧选择变体，在三个基准测试中实现了76.15%的宏观平均成功率，而全帧训练为66.50%，同时使用了压缩轨迹视图，在主设置中保留了20%的独特帧。

查看原文

查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - FrameSkip：在VLA训练中从更少但信息更丰富的帧中学习

来源: https://huggingface.co/papers/2605.13757 发表于5月13日

提交者https://huggingface.co/VLyb

yubin (https://huggingface.co/VLyb)于5月14日

作者:

摘要

FrameSkip 是一种数据层帧选择方法，通过基于动作变化和视觉一致性指标优先选择高重要性帧，从而改进 VLA 策略训练。

视觉-语言-动作（VLA）策略通常从密集的机器人演示轨迹（https://huggingface.co/papers?q=robot%20demonstration%20trajectories）中训练，这些轨迹通常通过遥操作（https://huggingface.co/papers?q=teleoperation）收集，并假设每个记录的帧都提供同等有用的监督信息。我们认为这种惯例会造成时间监督不平衡（https://huggingface.co/papers?q=temporal%20supervision%20imbalance）：长时间的低变化片段主导训练流，而操作关键过渡（如对齐、接触、抓取和释放）仅稀疏出现。我们引入了 FrameSkip（https://huggingface.co/papers?q=FrameSkip），这是一种数据层帧选择框架，它使用动作变化（https://huggingface.co/papers?q=action%20variation）、视觉-动作一致性（https://huggingface.co/papers?q=visual-action%20coherence）、任务进度先验（https://huggingface.co/papers?q=task-progress%20priors）和夹爪过渡保留（https://huggingface.co/papers?q=gripper-transition%20preservation）对轨迹帧进行评分，然后在目标保留比例下将训练样本重新映射到高重要性帧。由于 FrameSkip（https://huggingface.co/papers?q=FrameSkip）仅在数据加载器（https://huggingface.co/papers?q=dataloader）中操作，因此它不改变 VLA 架构、动作头、训练目标和推理过程。在 RoboCasa-GR1、SimplerEnv 和 LIBERO 上，FrameSkip（https://huggingface.co/papers?q=FrameSkip）相较于全帧训练和更简单的帧选择变体，改善了成功-保留权衡，在三个基准测试中实现了 76.15% 的宏观平均成功率（https://huggingface.co/papers?q=macro-average%20success%20rate），而全帧训练为 66.50%，同时使用了压缩的轨迹视图，在主设置中保留了 20% 的唯一帧。

查看 arXiv 页面（https://arxiv.org/abs/2605.13757）查看 PDF（https://arxiv.org/pdf/2605.13757）项目页面（https://huggingface.co/collections/VLyb/frameskip）GitHub0（https://github.com/ZGC-EmbodyAI/FrameSkip）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.13757）

在你的 agent 中获取这篇论文：

hf papers read 2605\.13757

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型链接到本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.13757 以从此页面链接。

引用本论文的数据集0

没有数据集链接到本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.13757 以从此页面链接。

引用本论文的 Space0

没有 Space 链接到本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.13757 以从此页面链接。

FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

论文页面 - FrameSkip：在VLA训练中从更少但信息更丰富的帧中学习

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Space0

包含本论文的收藏1

相似文章

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

PEEK：通过高效知识蒸馏选取关键帧

LiteFrame 扩展视频大语言模型效率（6分钟阅读）

StableVLA：迈向无需额外数据的稳健视觉-语言-动作模型

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

提交意见反馈