@HappyyPablo: 开源 Marlin-2B，一个小型视觉语言模型，用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

X AI KOLs Timeline 2026/05/19 20:49 模型

open-source vlm video-understanding small-model fine-tuning information-extraction

摘要

开源 Marlin-2B，一个用于从视频中提取结构化信息的小型VLM，经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型，与 Gemini-2.5-flash 竞争。

开源 Marlin-2B 🐟 一个用于从视频中提取结构化信息的小型VLM Marlin 针对开发者希望在视频中询问的两个问题进行了微调：发生了什么，以及何时发生？在其重量级别中最佳的开放模型，仅有2B参数却能与 Gemini-2.5-flash 竞争 🧵 https://t.co/rMqyBMC9IX

查看原文

查看缓存全文

缓存时间: 2026/05/20 02:23

开源 Marlin-2B 🐟 一个用于从视频中提取结构化信息的微型视觉语言模型

Marlin 专门针对开发者想在视频中提出的两个问题进行了微调：发生了什么？以及何时发生？

在同类参数规模下最佳开源模型，仅 2B 参数就足以与 Gemini-2.5-flash 竞争 🧵 https://t.co/rMqyBMC9IX

开源 Marlin-2B 一个用于从视频中提取结构化信息的微型视觉语言模型

Marlin 专门针对开发者想在视频中提出的两个问题进行了微调：发生了什么？以及何时发生？

在同类参数规模下最佳开源模型，仅 2B 参数就足以与 Gemini-2.5-flash 竞争

Marlin 在两种模式下训练：

marlin.caption() 返回结构化的 Scene + Events JSON，包含精确到秒的时间戳。你可以用它来为 Instagram Reels 生成字幕、索引视频库，或者让智能体能了解视频流中发生了什么以及何时发生。
marlin.find() 返回针对视频任意自然语言查询的 (start, end) 时间戳。速度足够快，可以在智能体循环中内联使用，用于定位视频中亚秒级的时刻。

在密集描述任务（DREAM-1K、CaReBench）上，它是同类权重中最强的开源模型，超越了 Tarsier-2 7B/34B，并与 Gemini-2.5-flash 竞争。在时间定位（TimeLens-Bench）上，它比 TimeLens-8B 落后几个点，接近 Gemini-2.5-pro。

背景故事：@rethinkNow348 和我正在构建视频编辑智能体，使用 Gemini-2.5-Flash 解析 Instagram Reels 中的事件。我们不断遇到内容过滤问题，即使是良性的视频片段也会被拦截，所以我们花了一个月时间、用了两块 H100 搞了这个副项目，这就是成果 :)

模型：http://huggingface.co/NemoStation/Marlin-2B… 在线 Demo：http://vlm.nemostation.com

训练方法 + 一个新的密集描述/时间定位基准数据集即将发布！！

玩得开心！有任何反馈欢迎随时联系我

嘿！你的使用场景是什么？

我们希望答案是肯定的 :)

我们还对 Gemini-3-flash 进行了知识蒸馏，用于标注基于时间戳的数据，但使用了多层过滤和思维链技巧来准确标注这些视频。

我们在数据混合中加入了一些体育高光片段，但不确定准确性如何，欢迎尝试，如果遇到问题请随时联系我！！

我们目前只托管了 2 分钟以内视频的推理。你的视频更长吗？

@HappyyPablo: 开源 Marlin-2B，一个小型视觉语言模型，用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

相似文章

NemoStation/Marlin-2B

@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract：返回结构化JSON的视觉语言模型，而非…

LiteFrame 扩展视频大语言模型效率（6分钟阅读）

Motif-Video 2B：技术报告

@svpino：首次，我觉得开源权重模型已无法忽视。我们正处于这些模型具有竞争…

提交意见反馈