video-understanding

#video-understanding

MetaphorVU：面向隐喻视频理解

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

本文介绍了MetaphorVU-Bench，这是首个针对隐喻视频理解的系统化基准，并提出了MetaphorBoost，一种推理时增强框架，可改善多模态大语言模型中的跨域映射。

0 人收藏 0 人点赞

#video-understanding

Show HN: Lance – 图像/视频生成与理解统一模型

Hacker News Top ↗ · 2026-05-20 缓存

字节跳动发布Lance，一个3B参数的统一多模态模型，支持图像和视频的生成、理解与编辑，采用多任务方案从头开始训练。

0 人收藏 0 人点赞

#video-understanding

Flat-Pack Bench：通过家具组装评估大型视觉-语言模型的时空理解能力

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

介绍了Flat-Pack Bench，一个通过家具组装任务评估大型视觉-语言模型细粒度时空推理能力的基准测试。实验表明，当前的LVLMs在跟踪和空间交互方面存在困难。

0 人收藏 0 人点赞

#video-understanding

@HappyyPablo: 开源 Marlin-2B，一个小型视觉语言模型，用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

X AI KOLs Timeline ↗ · 2026-05-19 缓存

开源 Marlin-2B，一个用于从视频中提取结构化信息的小型VLM，经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型，与 Gemini-2.5-flash 竞争。

1 人收藏 1 人点赞

#video-understanding

ParaVT: 在智能体视频强化学习中驯服工具先验悖论以实现并行工具使用

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

ParaVT 提出了第一个用于并行视频工具调用的多智能体端到端强化学习框架，通过 PARA-GRPO 解决了工具先验悖论，并完全开源了论文、代码、权重和数据。

0 人收藏 0 人点赞

#video-understanding

@elonmusk: Grok 已能理解视频

X AI KOLs Following ↗ · 2026-05-18 缓存

Grok 现在支持完整的视频分析功能，包括摘要生成、翻译、场景解释和上下文提取，成为原生多模态模型，具备强大的视觉能力。

0 人收藏 0 人点赞

#video-understanding

看我之意：面向视频细粒度对象理解的视觉与语言表征对齐

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

SWIM是一种新颖的训练策略，仅使用文本提示即可对齐视觉和语言表征以实现细粒度对象理解，并在训练期间利用掩码监督来改善跨模态注意力。该方法引入了NL-Refer数据集，并在细粒度对象理解基准测试中取得了优于基于视觉提示的方法的性能。

0 人收藏 0 人点赞

#video-understanding

OmniPro：面向全主动流式视频理解的综合基准

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准，包含 2,700 个样本，覆盖多种任务和双模式评估协议。

0 人收藏 0 人点赞

#video-understanding

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers ↗ · 2026-05-17 缓存

LiteFrame提出了一种轻量级视频编码器，采用压缩令牌蒸馏（Compressed Token Distillation）训练，可降低延迟，并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解，在降低计算量的同时提高准确性。

0 人收藏 0 人点赞

#video-understanding

bytedance-research/Lance

Hugging Face Models Trending ↗ · 2026-05-15 缓存

字节跳动研究团队推出Lance，一个30亿参数（3B参数）的统一多模态模型，在128块A100 GPU上从零开始训练，能够在单一框架内进行图像和视频的理解、生成和编辑。

0 人收藏 0 人点赞

#video-understanding

VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

VideoSeeker 引入了一种实例级视频理解的新范式，将智能体推理与视觉提示相结合，通过自动化数据合成和强化学习实现卓越性能，超越了 GPT-4o 和 Gemini-2.5-Pro。

0 人收藏 0 人点赞

#video-understanding

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…

X AI KOLs Timeline ↗ · 2026-05-14

NVIDIA 开源了视频理解模型 Nemotron 3 Nano Omni，采用 3D 卷积技术，处理速度比播放速度快 10 倍，擅长音视频分析、监控检索和素材打标，但不适用于代码或文本推理任务。

0 人收藏 0 人点赞

#video-understanding

ViMU：视频隐喻理解基准

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准，采用无提示的开放式和多项选择题。

0 人收藏 0 人点赞

#video-understanding

当视觉为声音代言

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

本文发现，具备视频处理能力的多模态大语言模型（MLLMs）表面上似乎能够理解音频，但实际上依赖视觉线索，这一失败模式被称为视听Clever Hans效应。我们提出了Thud，一个基于干预的探查框架来诊断该问题，并提出了一种对齐方案，将视听一致性提升了28个百分点。

0 人收藏 0 人点赞

#video-understanding

GitHub - keon/jepa: 实现联合嵌入预测架构（JEPA）的极简版本

Reddit r/ArtificialInteligence ↗ · 2026-05-12 缓存

一个 GitHub 仓库，提供 JEPA 系列模型（I-JEPA、V-JEPA、V-JEPA 2、C-JEPA）的极简、独立 PyTorch 重新实现，供教育用途，包含教程和可视化工具。

0 人收藏 0 人点赞

#video-understanding

GridProbe：针对长视频 VLM 自适应推理时计算的后验探测方法

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

GridProbe 是一种无需训练的长视频 VLM 推理范式，它通过后验探测自适应地选择相关帧，在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。

0 人收藏 0 人点赞

#video-understanding

@nomadicai：计算机视觉的未来是智能体。1/ 我们创立 Nomadic，是因为在视频理解中反复看到一个缺口：VLM……

X AI KOLs Following ↗ · 2026-04-21 缓存

NomadicAI 正在打造一款智能体计算机视觉产品，解决 VLM 对真实视频内容 grounding 不足的问题。

0 人收藏 0 人点赞

#video-understanding

SignX：在紧凑且富含姿态的潜在空间中进行连续手语识别

arXiv cs.CL ↗ · 2026-04-20 缓存

SignX提出了一种用于连续手语识别的新框架，该框架将异构姿态格式统一到紧凑的潜在空间中，并在像素空间基线基础上实现50倍计算加速，同时达到最先进的准确率。

0 人收藏 0 人点赞

#video-understanding

EasyVideoR1：让视频理解的强化学习更简单

Hugging Face Daily Papers ↗ · 2026-04-18 缓存

# 论文页面 - EasyVideoR1：让视频理解的强化学习更简单来源：[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架，可提升训练吞吐量，支持多种视频任务，并实现图像-视频联合训练，在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers

0 人收藏 0 人点赞

#video-understanding

TwelveLabs 的 Pegasus 1.5

Product Hunt ↗ · 2026-04-14

Pegasus 1.5 是 TwelveLabs 推出的一款 AI 模型，旨在将视频内容转换为基于时间的元数据，从而实现自动化的视频理解和索引。

0 人收藏 0 人点赞

video-understanding

提交意见反馈