PEEK:通过高效知识蒸馏选取关键帧

Hugging Face Daily Papers 论文

摘要

介绍PEEK,一种高效动态帧采样方法,它从教师模型中蒸馏出字幕条件帧相关性排名,并将其融入轻量级时序模型,在视频字幕生成中优于最先进方法,同时保持计算效率。

视频语言模型只能处理有限数量的帧,这使得帧选择成为高效视频字幕生成的关键瓶颈。大多数字幕生成流程仍依赖均匀采样,这种方法计算成本低,但与视觉内容无关。自适应帧采样最近成为一种有前景的方法,用于从视频中选取信息最丰富的帧;然而,现有方法仍然计算成本高昂。我们提出PEEK,一种高效动态帧采样方法,它从更强的教师模型中蒸馏出字幕条件帧相关性排名,并将其融入仅基于视觉内容运行的轻量级时序模型。我们发现,总体而言,在ActivityNet Captions和MSR-VTT上,我们的方法在所有评估的下游视觉语言模型中优于最先进方法,尤其当仅选取一帧或两帧进行字幕生成时,在大多数帧预算下获得了最佳CIDEr得分。在ActivityNet Captions上,PEEK表现尤为突出,在16种配置中赢得了14种。在MSR-VTT上的零样本评估显示,我们的模型在低帧预算下迁移效果最佳,而在四帧和八帧时结果较为复杂,因为时序覆盖和视觉多样性竞争日益激烈。与近期自适应基线方法相比,PEEK在低预算下更准确且更高效:它仅增加5.2%的字幕生成时间,而CSTA增加65.4%,MaxInfo增加211.9%。我们在https://github.com/momentslab/peek发布代码和预训练检查点。
查看原文
查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - PEEK:通过高效知识蒸馏选取关键帧

来源:https://huggingface.co/papers/2605.31029

摘要

PEEK 是一种高效的动态帧采样方法,通过将带描述条件的帧相关性排序从教师模型蒸馏到轻量级时序模型中,在视频描述任务中超越了最先进的方法,同时保持计算效率。

视频语言模型(https://huggingface.co/papers?q=Video-language%20models)只能处理有限数量的帧,这使得帧选择(https://huggingface.co/papers?q=frame%20selection)成为高效视频描述的关键瓶颈。大多数描述流程仍依赖均匀采样,这种方法计算成本低,但对视觉内容不敏感。自适应帧采样(https://huggingface.co/papers?q=Adaptive%20frame%20sampling)近期已成为从视频中选取最具信息量帧的有前景方法,但现有方法计算成本仍然很高。我们提出 PEEK,一种高效的动态帧采样方法,它将带描述条件的帧相关性(https://huggingface.co/papers?q=caption-conditioned%20frame%20relevance)排序从更强的教师模型(https://huggingface.co/papers?q=teacher%20model)蒸馏到一个仅依赖视觉内容的轻量级时序模型(https://huggingface.co/papers?q=lightweight%20temporal%20model)中。我们发现,总体而言,在 ActivityNet Captions 和 MSR-VTT 上,我们的方法在所有评估的下游视觉语言模型(https://huggingface.co/papers?q=vision%20language%20models)上都优于最先进的方法,尤其是在仅选取一帧或两帧进行描述时,能够在大多数帧预算下取得最佳 CIDEr(https://huggingface.co/papers?q=CIDEr)分数。在 ActivityNet Captions 上,PEEK 表现尤为出色,在 16 种配置中胜出 14 种。MSR-VTT 上的零样本评估(https://huggingface.co/papers?q=Zero-shot%20evaluation)表明,我们的模型在低帧预算下迁移效果最佳,而在四帧和八帧时,结果则更为混杂,因为时间覆盖度(https://huggingface.co/papers?q=temporal%20coverage)和视觉多样性(https://huggingface.co/papers?q=visual%20diversity)变得日益具有竞争力。与近期自适应基线方法相比,PEEK 在低预算场景下不仅更准确,而且更高效:它仅使描述时间增加 5.2%,而 CSTA 增加 65.4%,MaxInfo 增加 211.9%。我们已在 https://github.com/momentslab/peek 开源代码和预训练检查点。

查看 arXiv 页面(https://arxiv.org/abs/2605.31029)
查看 PDF(https://arxiv.org/pdf/2605.31029)
项目页面(https://www.killian-steunou.com/peek)
GitHub0(https://github.com/momentslab/peek)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31029)

在你的智能体中获取此论文:

hf papers read 2605.31029

还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(1 个)

momentslab/peek 更新于约 4 小时前 • 10 • 2(https://huggingface.co/momentslab/peek)

引用此论文的数据集(0 个)

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.31029 即可从此页面链接。

引用此论文的 Spaces(1 个)

包含此论文的收藏集(0 个)

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

PEEK:长上下文LLM代理的上下文图方向缓存

Hugging Face Daily Papers

本文介绍了PEEK系统,该系统将关于重复出现的外部上下文的定向知识缓存为上下文图,使得LLM代理能够跨调用复用上下文知识,并在长上下文推理和信息聚合任务上显著提高效率和准确性。

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。

FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

Hugging Face Daily Papers

FrameSkip是一种数据层的帧选择方法,通过基于动作变化和视觉一致性指标优先选择高重要性的帧,来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率,同时仅使用了20%的独特帧。

Peak-Detector:基于指令微调大语言模型的生理信号可解释峰值检测

arXiv cs.LG

介绍了Peak-Detector框架,该框架利用指令微调的大语言模型对心电(ECG)、光电容积脉搏波(PPG)、心冲击图(BCG)和体震图(BSG)等生理信号进行鲁棒、跨模态且可解释的峰值检测。该方法将时间序列数据转换为压缩的“峰值表示”格式,并通过监督微调及后续多目标奖励的强化学习进行优化。

参数高效的多视角熟练度评估:从判别式分类到生成式反馈

Hugging Face Daily Papers

本文针对 Ego-Exo4D 数据集提出了三种参数高效的多视角熟练度评估方法,实现了从判别式分类到生成式反馈的转变。与基于视频 Transformer 的基线模型相比,所提出的模型在参数量和训练轮次大幅减少的同时,取得了最先进的准确率。