PEEK：通过高效知识蒸馏选取关键帧

Hugging Face Daily Papers 2026/05/29 00:00 论文

摘要

介绍PEEK，一种高效动态帧采样方法，它从教师模型中蒸馏出字幕条件帧相关性排名，并将其融入轻量级时序模型，在视频字幕生成中优于最先进方法，同时保持计算效率。

视频语言模型只能处理有限数量的帧，这使得帧选择成为高效视频字幕生成的关键瓶颈。大多数字幕生成流程仍依赖均匀采样，这种方法计算成本低，但与视觉内容无关。自适应帧采样最近成为一种有前景的方法，用于从视频中选取信息最丰富的帧；然而，现有方法仍然计算成本高昂。我们提出PEEK，一种高效动态帧采样方法，它从更强的教师模型中蒸馏出字幕条件帧相关性排名，并将其融入仅基于视觉内容运行的轻量级时序模型。我们发现，总体而言，在ActivityNet Captions和MSR-VTT上，我们的方法在所有评估的下游视觉语言模型中优于最先进方法，尤其当仅选取一帧或两帧进行字幕生成时，在大多数帧预算下获得了最佳CIDEr得分。在ActivityNet Captions上，PEEK表现尤为突出，在16种配置中赢得了14种。在MSR-VTT上的零样本评估显示，我们的模型在低帧预算下迁移效果最佳，而在四帧和八帧时结果较为复杂，因为时序覆盖和视觉多样性竞争日益激烈。与近期自适应基线方法相比，PEEK在低预算下更准确且更高效：它仅增加5.2%的字幕生成时间，而CSTA增加65.4%，MaxInfo增加211.9%。我们在https://github.com/momentslab/peek发布代码和预训练检查点。

查看原文

查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - PEEK：通过高效知识蒸馏选取关键帧

来源：https://huggingface.co/papers/2605.31029

摘要

PEEK 是一种高效的动态帧采样方法，通过将带描述条件的帧相关性排序从教师模型蒸馏到轻量级时序模型中，在视频描述任务中超越了最先进的方法，同时保持计算效率。

视频语言模型（https://huggingface.co/papers?q=Video-language%20models）只能处理有限数量的帧，这使得帧选择（https://huggingface.co/papers?q=frame%20selection）成为高效视频描述的关键瓶颈。大多数描述流程仍依赖均匀采样，这种方法计算成本低，但对视觉内容不敏感。自适应帧采样（https://huggingface.co/papers?q=Adaptive%20frame%20sampling）近期已成为从视频中选取最具信息量帧的有前景方法，但现有方法计算成本仍然很高。我们提出 PEEK，一种高效的动态帧采样方法，它将带描述条件的帧相关性（https://huggingface.co/papers?q=caption-conditioned%20frame%20relevance）排序从更强的教师模型（https://huggingface.co/papers?q=teacher%20model）蒸馏到一个仅依赖视觉内容的轻量级时序模型（https://huggingface.co/papers?q=lightweight%20temporal%20model）中。我们发现，总体而言，在 ActivityNet Captions 和 MSR-VTT 上，我们的方法在所有评估的下游视觉语言模型（https://huggingface.co/papers?q=vision%20language%20models）上都优于最先进的方法，尤其是在仅选取一帧或两帧进行描述时，能够在大多数帧预算下取得最佳 CIDEr（https://huggingface.co/papers?q=CIDEr）分数。在 ActivityNet Captions 上，PEEK 表现尤为出色，在 16 种配置中胜出 14 种。MSR-VTT 上的零样本评估（https://huggingface.co/papers?q=Zero-shot%20evaluation）表明，我们的模型在低帧预算下迁移效果最佳，而在四帧和八帧时，结果则更为混杂，因为时间覆盖度（https://huggingface.co/papers?q=temporal%20coverage）和视觉多样性（https://huggingface.co/papers?q=visual%20diversity）变得日益具有竞争力。与近期自适应基线方法相比，PEEK 在低预算场景下不仅更准确，而且更高效：它仅使描述时间增加 5.2%，而 CSTA 增加 65.4%，MaxInfo 增加 211.9%。我们已在 https://github.com/momentslab/peek 开源代码和预训练检查点。

查看 arXiv 页面（https://arxiv.org/abs/2605.31029）
查看 PDF（https://arxiv.org/pdf/2605.31029）
项目页面（https://www.killian-steunou.com/peek）
GitHub0（https://github.com/momentslab/peek）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.31029）

在你的智能体中获取此论文：

hf papers read 2605.31029

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型（1 个）

momentslab/peek 更新于约 4 小时前 • 10 • 2（https://huggingface.co/momentslab/peek）

引用此论文的数据集（0 个）

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.31029 即可从此页面链接。

引用此论文的 Spaces（1 个）

包含此论文的收藏集（0 个）

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）即可从此页面链接。

PEEK：通过高效知识蒸馏选取关键帧

论文页面 - PEEK：通过高效知识蒸馏选取关键帧

摘要

引用此论文的模型（1 个）

momentslab/peek 更新于约 4 小时前 • 10 • 2（https://huggingface.co/momentslab/peek）

引用此论文的数据集（0 个）

引用此论文的 Spaces（1 个）

包含此论文的收藏集（0 个）

相似文章

PEEK：长上下文LLM代理的上下文图方向缓存

表征先于像素：语义引导的分层视频预测

FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

Peak-Detector：基于指令微调大语言模型的生理信号可解释峰值检测

参数高效的多视角熟练度评估：从判别式分类到生成式反馈

提交意见反馈