streaming-video

标签

Cards List
#streaming-video

OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试

Papers with Code Trending · 2026-06-02 缓存

OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。

0 人收藏 0 人点赞
#streaming-video

面向多模态代理的任务聚焦记忆

Hugging Face Daily Papers · 2026-05-29 缓存

介绍了TaskMem,一种基于强化学习的多模态代理动态记忆框架,在流式视频基准测试上实现了6.3%、7.0%和5.3%的准确率提升。

0 人收藏 0 人点赞
#streaming-video

AdaState:流式视频生成中的自进化锚点

Hugging Face Daily Papers · 2026-05-28 缓存

本文介绍了AdaState,一种在自回归视频扩散模型中用自适应状态替代静态首帧锚点的方法,该状态随生成内容而演变,从而在流式视频生成中实现更丰富的运动与自然场景推进。

0 人收藏 0 人点赞
#streaming-video

OmniPro:面向全主动流式视频理解的综合基准

Hugging Face Daily Papers · 2026-05-18 缓存

OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。

0 人收藏 0 人点赞
#streaming-video

Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏

Hugging Face Daily Papers · 2026-05-05 缓存

Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈