FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

Hugging Face Daily Papers 论文

摘要

FrameSkip是一种数据层的帧选择方法,通过基于动作变化和视觉一致性指标优先选择高重要性的帧,来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率,同时仅使用了20%的独特帧。

视觉-语言-动作(VLA)策略通常从密集的机器人演示轨迹中训练,这些轨迹通常通过远程操作收集,通过采样每一记录帧,仿佛它们都提供同等有用的监督。我们认为这种惯例造成了时间监督不平衡:长段的低变化片段主导训练流,而操作关键转换(如对齐、接触、抓取和释放)仅稀疏出现。我们引入FrameSkip,一种数据层的帧选择框架,它使用动作变化、视觉-动作一致性、任务进度先验和夹爪转换保留来对轨迹帧进行评分,然后在目标保留比率下将训练样本重新映射到高重要性帧。由于FrameSkip仅在数据加载器中操作,因此它不改变VLA架构、动作头、训练目标和推理过程。在RoboCasa-GR1、SimplerEnv和LIBERO上,FrameSkip在成功率保持权衡上优于全帧训练和更简单的帧选择变体,在三个基准测试中实现了76.15%的宏观平均成功率,而全帧训练为66.50%,同时使用了压缩轨迹视图,在主设置中保留了20%的独特帧。
查看原文
查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - FrameSkip:在VLA训练中从更少但信息更丰富的帧中学习

来源: https://huggingface.co/papers/2605.13757 发表于5月13日

·

提交者https://huggingface.co/VLyb

yubin (https://huggingface.co/VLyb)于5月14日

作者:

,

,

,

,

,

,

,

,

,

摘要

FrameSkip 是一种数据层帧选择方法,通过基于动作变化和视觉一致性指标优先选择高重要性帧,从而改进 VLA 策略训练。

视觉-语言-动作(VLA)策略通常从密集的机器人演示轨迹(https://huggingface.co/papers?q=robot%20demonstration%20trajectories)中训练,这些轨迹通常通过遥操作(https://huggingface.co/papers?q=teleoperation)收集,并假设每个记录的帧都提供同等有用的监督信息。我们认为这种惯例会造成时间监督不平衡(https://huggingface.co/papers?q=temporal%20supervision%20imbalance):长时间的低变化片段主导训练流,而操作关键过渡(如对齐、接触、抓取和释放)仅稀疏出现。我们引入了 FrameSkip(https://huggingface.co/papers?q=FrameSkip),这是一种数据层帧选择框架,它使用动作变化(https://huggingface.co/papers?q=action%20variation)、视觉-动作一致性(https://huggingface.co/papers?q=visual-action%20coherence)、任务进度先验(https://huggingface.co/papers?q=task-progress%20priors)和夹爪过渡保留(https://huggingface.co/papers?q=gripper-transition%20preservation)对轨迹帧进行评分,然后在目标保留比例下将训练样本重新映射到高重要性帧。由于 FrameSkip(https://huggingface.co/papers?q=FrameSkip)仅在数据加载器(https://huggingface.co/papers?q=dataloader)中操作,因此它不改变 VLA 架构、动作头、训练目标和推理过程。在 RoboCasa-GR1、SimplerEnv 和 LIBERO 上,FrameSkip(https://huggingface.co/papers?q=FrameSkip)相较于全帧训练和更简单的帧选择变体,改善了成功-保留权衡,在三个基准测试中实现了 76.15% 的宏观平均成功率(https://huggingface.co/papers?q=macro-average%20success%20rate),而全帧训练为 66.50%,同时使用了压缩的轨迹视图,在主设置中保留了 20% 的唯一帧。

查看 arXiv 页面(https://arxiv.org/abs/2605.13757)查看 PDF(https://arxiv.org/pdf/2605.13757)项目页面(https://huggingface.co/collections/VLyb/frameskip)GitHub0(https://github.com/ZGC-EmbodyAI/FrameSkip)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13757)

在你的 agent 中获取这篇论文:

hf papers read 2605\.13757

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型链接到本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.13757 以从此页面链接。

引用本论文的数据集0

没有数据集链接到本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.13757 以从此页面链接。

引用本论文的 Space0

没有 Space 链接到本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.13757 以从此页面链接。

包含本论文的收藏1

相似文章

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。

PEEK:通过高效知识蒸馏选取关键帧

Hugging Face Daily Papers

介绍PEEK,一种高效动态帧采样方法,它从教师模型中蒸馏出字幕条件帧相关性排名,并将其融入轻量级时序模型,在视频字幕生成中优于最先进方法,同时保持计算效率。

LiteFrame 扩展视频大语言模型效率(6分钟阅读)

TLDR AI

LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。