video-understanding

标签

Cards List
#video-understanding

@_TobiasLee: 来自字节跳动的 Seed 2.1 在我们两项基准测试中取得了令人瞩目的成绩。Claw-Eval (多模态,https://claw-eval.…

X AI KOLs Timeline · 18小时前 缓存

字节跳动的 Seed 2.1 模型在多模态智能体(Claw-Eval)和长视频理解(Video-MME)基准测试中取得了强劲的结果,尽管在感知和智能体能力之间仍存在差距。

0 人收藏 0 人点赞
#video-understanding

原生主动感知作为全模态理解的推理方式

Hugging Face Daily Papers · 2026-06-17 缓存

介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。

0 人收藏 0 人点赞
#video-understanding

@jiqizhixin: 如果你的AI能像流媒体编解码器一样“看”视频——只把令牌花在最关键的时刻?介绍……

X AI KOLs Timeline · 2026-06-15 缓存

LLaVA-OneVision-2 引入了编解码流令牌化技术以实现高效的视频理解,在时间与空间基准测试上显著超越 Qwen3-VL-8B。模型、数据和代码均已开源。

0 人收藏 0 人点赞
#video-understanding

InternVideo3: 使用多模态上下文推理将基础模型智能体化

Hugging Face Daily Papers · 2026-06-10 缓存

InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。

0 人收藏 0 人点赞
#video-understanding

当没有正确答案时:诊断视频理解中多模态大语言模型的缺失答案检测

arXiv cs.AI · 2026-06-09 缓存

本文研究了多模态大语言模型(MLLMs)在视频理解任务中检测正确答案缺失的能力,发现模型系统性地失败,倾向于选择合理的干扰项而非识别出没有有效选项。该失败在时序推理和密集帧采样中更为严重,而思维链提示仅能部分缓解问题。

0 人收藏 0 人点赞
#video-understanding

OmniCap-IF:全模态视频字幕生成中指令跟随能力的基准测试与提升

Hugging Face Daily Papers · 2026-06-07 缓存

介绍了OmniCap-IF,这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准,揭示了格式-内容权衡,并提出了改进的模型和数据集。

0 人收藏 0 人点赞
#video-understanding

观看、记忆、推理:基于MLLMs的人类视角视频理解

Hugging Face Daily Papers · 2026-06-05 缓存

一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。

0 人收藏 0 人点赞
#video-understanding

VCIFBench:评估视频理解中的复杂指令遵循能力

arXiv cs.CL · 2026-06-04 缓存

VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。

0 人收藏 0 人点赞
#video-understanding

从视频中学习几何表征以赋予多模态大语言模型空间智能

Hugging Face Daily Papers · 2026-06-04 缓存

GeoVR 通过利用多个几何目标从3D基础模型中蒸馏几何知识,重构多模态大语言模型的语义潜空间,从而增强其3D感知能力。

0 人收藏 0 人点赞
#video-understanding

面向一对多时序定位

Hugging Face Daily Papers · 2026-06-04 缓存

本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。

0 人收藏 0 人点赞
#video-understanding

@MaxForAI: 昨天字节Seed开源了一个非常有意思的checkpoint TaskMem 它基于Qwen3-VL-30B-A3B训练,目标不是直接回答问题,而是让多模态Agent在视频/环境流里学会生成更有用的长期记忆。 重点是让Agent学会在连续视…

X AI KOLs Timeline · 2026-06-03 缓存

字节Seed开源了TaskMem checkpoint,基于Qwen3-VL-30B-A3B训练,通过两阶段强化学习让多模态Agent在视频流中学会生成长期记忆,在VideoMME、EgoLife等基准上获得显著提升。

0 人收藏 0 人点赞
#video-understanding

@PinzhiHuang: 状态追踪是视频理解的核心支柱:它需要识别实体和事件,并映射它们如何随时间演变…

X AI KOLs Following · 2026-06-03 缓存

介绍VSTAT,一个衡量多模态大语言模型在视频中追踪状态能力的新基准,揭示前沿模型在人类认为简单的任务上表现不佳。

0 人收藏 0 人点赞
#video-understanding

@ma_nanye: VSTAT 强调了人类与多模态大模型之间巨大的感知差距,但其意义远不止于此。其多样化的任务……

X AI KOLs Following · 2026-06-03 缓存

VSTAT 是一个用于视频视觉状态追踪的新基准,揭示了人类与多模态大模型之间的感知差距。

0 人收藏 0 人点赞
#video-understanding

M^3Eval:基于认知心理学的视频任务多模态记忆评估

Hugging Face Daily Papers · 2026-06-03 缓存

M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。

0 人收藏 0 人点赞
#video-understanding

多模态视频理解中视觉状态追踪的基准测试

Hugging Face Daily Papers · 2026-06-02 缓存

介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。

0 人收藏 0 人点赞
#video-understanding

X-Stream: 探索将MLLMs作为多流理解的多路复用器

Hugging Face Daily Papers · 2026-06-01 缓存

X-Stream 引入了首个多流视频理解基准,将MLLMs作为多路复用器在多个并发流中进行评估。研究表明,当前MLLMs仅能达到约50%的准确率,暴露了处理多流时的显著局限性。

0 人收藏 0 人点赞
#video-understanding

线性缩放视频VLM用于长视频理解

Hugging Face Daily Papers · 2026-05-29 缓存

StateKV是一种推理时方法,通过将跨帧上下文携带在固定容量的循环状态中,实现长视频视觉语言模型的线性时间视频预填充,在无需微调的情况下保持接近完全自注意力的准确性。

0 人收藏 0 人点赞
#video-understanding

EarlyTom:早期Token压缩实现快速视频理解

Hugging Face Daily Papers · 2026-05-28 缓存

EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。

0 人收藏 0 人点赞
#video-understanding

Kwai-Keye/Keye-VL-2.0-30B-A3B

Hugging Face Models Trending · 2026-05-25 缓存

Kwai-Keye 发布了 Keye-VL-2.0-30B-A3B,这是一款 30B 级别的视觉语言模型,具备先进的视频理解、稀疏注意力机制和智能体能力,在多项基准测试中达到顶尖水平。

0 人收藏 0 人点赞
#video-understanding

LLaVA-OneVision-2:迈向下一代感知智能

Hugging Face Daily Papers · 2026-05-25 缓存

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈