标签
本文介绍了MetaphorVU-Bench,这是首个针对隐喻视频理解的系统化基准,并提出了MetaphorBoost,一种推理时增强框架,可改善多模态大语言模型中的跨域映射。
字节跳动发布Lance,一个3B参数的统一多模态模型,支持图像和视频的生成、理解与编辑,采用多任务方案从头开始训练。
介绍了Flat-Pack Bench,一个通过家具组装任务评估大型视觉-语言模型细粒度时空推理能力的基准测试。实验表明,当前的LVLMs在跟踪和空间交互方面存在困难。
开源 Marlin-2B,一个用于从视频中提取结构化信息的小型VLM,经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型,与 Gemini-2.5-flash 竞争。
ParaVT 提出了第一个用于并行视频工具调用的多智能体端到端强化学习框架,通过 PARA-GRPO 解决了工具先验悖论,并完全开源了论文、代码、权重和数据。
Grok 现在支持完整的视频分析功能,包括摘要生成、翻译、场景解释和上下文提取,成为原生多模态模型,具备强大的视觉能力。
SWIM是一种新颖的训练策略,仅使用文本提示即可对齐视觉和语言表征以实现细粒度对象理解,并在训练期间利用掩码监督来改善跨模态注意力。该方法引入了NL-Refer数据集,并在细粒度对象理解基准测试中取得了优于基于视觉提示的方法的性能。
OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。
LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。
字节跳动研究团队推出Lance,一个30亿参数(3B参数)的统一多模态模型,在128块A100 GPU上从零开始训练,能够在单一框架内进行图像和视频的理解、生成和编辑。
VideoSeeker 引入了一种实例级视频理解的新范式,将智能体推理与视觉提示相结合,通过自动化数据合成和强化学习实现卓越性能,超越了 GPT-4o 和 Gemini-2.5-Pro。
NVIDIA 开源了视频理解模型 Nemotron 3 Nano Omni,采用 3D 卷积技术,处理速度比播放速度快 10 倍,擅长音视频分析、监控检索和素材打标,但不适用于代码或文本推理任务。
ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准,采用无提示的开放式和多项选择题。
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。
一个 GitHub 仓库,提供 JEPA 系列模型(I-JEPA、V-JEPA、V-JEPA 2、C-JEPA)的极简、独立 PyTorch 重新实现,供教育用途,包含教程和可视化工具。
GridProbe 是一种无需训练的长视频 VLM 推理范式,它通过后验探测自适应地选择相关帧,在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。
NomadicAI 正在打造一款智能体计算机视觉产品,解决 VLM 对真实视频内容 grounding 不足的问题。
SignX提出了一种用于连续手语识别的新框架,该框架将异构姿态格式统一到紧凑的潜在空间中,并在像素空间基线基础上实现50倍计算加速,同时达到最先进的准确率。
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers
Pegasus 1.5 是 TwelveLabs 推出的一款 AI 模型,旨在将视频内容转换为基于时间的元数据,从而实现自动化的视频理解和索引。