@HappyyPablo: 开源 Marlin-2B,一个小型视觉语言模型,用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……
摘要
开源 Marlin-2B,一个用于从视频中提取结构化信息的小型VLM,经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型,与 Gemini-2.5-flash 竞争。
查看缓存全文
缓存时间: 2026/05/20 02:23
开源 Marlin-2B 🐟 一个用于从视频中提取结构化信息的微型视觉语言模型
Marlin 专门针对开发者想在视频中提出的两个问题进行了微调:发生了什么?以及何时发生?
在同类参数规模下最佳开源模型,仅 2B 参数就足以与 Gemini-2.5-flash 竞争 🧵 https://t.co/rMqyBMC9IX
开源 Marlin-2B 一个用于从视频中提取结构化信息的微型视觉语言模型
Marlin 专门针对开发者想在视频中提出的两个问题进行了微调:发生了什么?以及何时发生?
在同类参数规模下最佳开源模型,仅 2B 参数就足以与 Gemini-2.5-flash 竞争
Marlin 在两种模式下训练:
-
marlin.caption() 返回结构化的 Scene + Events JSON,包含精确到秒的时间戳。 你可以用它来为 Instagram Reels 生成字幕、索引视频库,或者让智能体能了解视频流中发生了什么以及何时发生。
-
marlin.find() 返回针对视频任意自然语言查询的 (start, end) 时间戳。 速度足够快,可以在智能体循环中内联使用,用于定位视频中亚秒级的时刻。
在密集描述任务(DREAM-1K、CaReBench)上,它是同类权重中最强的开源模型,超越了 Tarsier-2 7B/34B,并与 Gemini-2.5-flash 竞争。在时间定位(TimeLens-Bench)上,它比 TimeLens-8B 落后几个点,接近 Gemini-2.5-pro。
背景故事:@rethinkNow348 和我正在构建视频编辑智能体,使用 Gemini-2.5-Flash 解析 Instagram Reels 中的事件。我们不断遇到内容过滤问题,即使是良性的视频片段也会被拦截,所以我们花了一个月时间、用了两块 H100 搞了这个副项目,这就是成果 :)
模型:http://huggingface.co/NemoStation/Marlin-2B… 在线 Demo:http://vlm.nemostation.com
训练方法 + 一个新的密集描述/时间定位基准数据集即将发布!!
玩得开心!有任何反馈欢迎随时联系我
嘿!你的使用场景是什么?
我们希望答案是肯定的 :)
我们还对 Gemini-3-flash 进行了知识蒸馏,用于标注基于时间戳的数据,但使用了多层过滤和思维链技巧来准确标注这些视频。
我们在数据混合中加入了一些体育高光片段,但不确定准确性如何,欢迎尝试,如果遇到问题请随时联系我!!
我们目前只托管了 2 分钟以内视频的推理。你的视频更长吗?
相似文章
NemoStation/Marlin-2B
NemoStation/Marlin-2B 是基于 Qwen3.5-2B 微调的模型,用于视频-文本到文本任务,支持视频字幕生成和时间定位。
@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract:返回结构化JSON的视觉语言模型,而非…
Liquid AI发布了LFM2.5-VL-1.6B-Extract和LFM2.5-VL-450M-Extract,这些视觉语言模型能从图像和字段列表中输出结构化JSON。模型为开放权重,提供两种规格。
LiteFrame 扩展视频大语言模型效率(6分钟阅读)
LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。
Motif-Video 2B:技术报告
# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。
@svpino:首次,我觉得开源权重模型已无法忽视。我们正处于这些模型具有竞争…
Santiago (@svpino) 强调 MiniMax-M2.7,一个 230B 参数的开源权重模型,能与 Opus 4.6 和 GPT-5.4 等顶级专有模型相抗衡,在 SambaNova 上以低成本实现 440+ tokens/s 的推理速度。