@HappyyPablo: 开源 Marlin-2B,一个小型视觉语言模型,用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

X AI KOLs Timeline 模型

摘要

开源 Marlin-2B,一个用于从视频中提取结构化信息的小型VLM,经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型,与 Gemini-2.5-flash 竞争。

开源 Marlin-2B 🐟 一个用于从视频中提取结构化信息的小型VLM Marlin 针对开发者希望在视频中询问的两个问题进行了微调:发生了什么,以及何时发生? 在其重量级别中最佳的开放模型,仅有2B参数却能与 Gemini-2.5-flash 竞争 🧵 https://t.co/rMqyBMC9IX
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:23

开源 Marlin-2B 🐟 一个用于从视频中提取结构化信息的微型视觉语言模型

Marlin 专门针对开发者想在视频中提出的两个问题进行了微调:发生了什么?以及何时发生?

在同类参数规模下最佳开源模型,仅 2B 参数就足以与 Gemini-2.5-flash 竞争 🧵 https://t.co/rMqyBMC9IX

开源 Marlin-2B 一个用于从视频中提取结构化信息的微型视觉语言模型

Marlin 专门针对开发者想在视频中提出的两个问题进行了微调:发生了什么?以及何时发生?

在同类参数规模下最佳开源模型,仅 2B 参数就足以与 Gemini-2.5-flash 竞争

Marlin 在两种模式下训练:

  1. marlin.caption() 返回结构化的 Scene + Events JSON,包含精确到秒的时间戳。 你可以用它来为 Instagram Reels 生成字幕、索引视频库,或者让智能体能了解视频流中发生了什么以及何时发生。

  2. marlin.find() 返回针对视频任意自然语言查询的 (start, end) 时间戳。 速度足够快,可以在智能体循环中内联使用,用于定位视频中亚秒级的时刻。

在密集描述任务(DREAM-1K、CaReBench)上,它是同类权重中最强的开源模型,超越了 Tarsier-2 7B/34B,并与 Gemini-2.5-flash 竞争。在时间定位(TimeLens-Bench)上,它比 TimeLens-8B 落后几个点,接近 Gemini-2.5-pro。

背景故事:@rethinkNow348 和我正在构建视频编辑智能体,使用 Gemini-2.5-Flash 解析 Instagram Reels 中的事件。我们不断遇到内容过滤问题,即使是良性的视频片段也会被拦截,所以我们花了一个月时间、用了两块 H100 搞了这个副项目,这就是成果 :)

模型:http://huggingface.co/NemoStation/Marlin-2B… 在线 Demo:http://vlm.nemostation.com

训练方法 + 一个新的密集描述/时间定位基准数据集即将发布!!

玩得开心!有任何反馈欢迎随时联系我

嘿!你的使用场景是什么?

我们希望答案是肯定的 :)

我们还对 Gemini-3-flash 进行了知识蒸馏,用于标注基于时间戳的数据,但使用了多层过滤和思维链技巧来准确标注这些视频。

我们在数据混合中加入了一些体育高光片段,但不确定准确性如何,欢迎尝试,如果遇到问题请随时联系我!!

我们目前只托管了 2 分钟以内视频的推理。你的视频更长吗?

相似文章

NemoStation/Marlin-2B

Hugging Face Models Trending

NemoStation/Marlin-2B 是基于 Qwen3.5-2B 微调的模型,用于视频-文本到文本任务,支持视频字幕生成和时间定位。

LiteFrame 扩展视频大语言模型效率(6分钟阅读)

TLDR AI

LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。

Motif-Video 2B:技术报告

Hugging Face Daily Papers

# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。