标签
介绍PEEK,一种高效动态帧采样方法,它从教师模型中蒸馏出字幕条件帧相关性排名,并将其融入轻量级时序模型,在视频字幕生成中优于最先进方法,同时保持计算效率。
NemoStation/Marlin-2B 是基于 Qwen3.5-2B 微调的模型,用于视频-文本到文本任务,支持视频字幕生成和时间定位。