标签
介绍PEEK,一种高效动态帧采样方法,它从教师模型中蒸馏出字幕条件帧相关性排名,并将其融入轻量级时序模型,在视频字幕生成中优于最先进方法,同时保持计算效率。
Swift Sampling 是一种无需训练的视频帧选择算法,利用泰勒展开检测长视频中的高信息量时刻。通过识别实际视觉特征与预测特征轨迹的偏差,该算法在视频问答任务中能以极低计算开销提升准确率。
FrameSkip是一种数据层的帧选择方法,通过基于动作变化和视觉一致性指标优先选择高重要性的帧,来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率,同时仅使用了20%的独特帧。