visual-language-action

#visual-language-action

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

IntentVLA 是一种历史条件视觉-语言-动作框架，通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性，解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench，这是一个用于评估此类方法的模糊感知基准。

0 人收藏 0 人点赞

#visual-language-action

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

FrameSkip是一种数据层的帧选择方法，通过基于动作变化和视觉一致性指标优先选择高重要性的帧，来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率，同时仅使用了20%的独特帧。

0 人收藏 0 人点赞