VideoKR:面向知识和推理密集型视频理解
摘要
VideoKR 引入了一个大规模视频推理数据集和基准,旨在通过专家领域内容和人机协同的示例生成,增强知识密集型视频理解。该数据集包含 31.5万个视频推理示例,覆盖 14.5万个专家领域视频。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - VideoKR:面向知识与推理密集型视频理解
来源:https://huggingface.co/papers/2606.05259
摘要
VideoKR 提出了一个大规模视频推理数据集与基准,旨在通过专家领域内容和人类参与的示例生成,增强知识密集型视频理解能力。
我们引入了 VideoKR,这是首个专门为加强知识与推理密集型视频理解而设计的大规模训练语料库(https://huggingface.co/papers?q=large-scale%20training%20corpus)。它包含315K个视频推理示例(https://huggingface.co/papers?q=video%20reasoning),覆盖145K个新收集的、采用CC许可的专家领域视频。我们开发了一个人类参与的、面向技能的示例生成流程(https://huggingface.co/papers?q=human-in-the-loop),该流程针对逐步深化的视频推理能力(https://huggingface.co/papers?q=video%20reasoning),同时确保示例及其CoT推理过程(https://huggingface.co/papers?q=CoT%20rationales)的难度、多样性和可靠性。我们还精心整理了VideoKR-Eval,这是一个全新的专家标注基准(https://huggingface.co/papers?q=expert-annotated%20benchmark),其中的问题要求真正的视频理解和知识密集型推理,而非文本捷径。我们的实验表明,在标准的SFT→GRPO流程下,基于VideoKR后训练的模型在知识密集型视频推理任务上优于先前的后训练方法(https://huggingface.co/papers?q=post-training%20approaches),同时在通用视频推理上保持竞争力,这凸显了数据设计作为视频推理进展关键驱动力的作用。我们进一步进行了全面的消融实验,以分离VideoKR的贡献,为未来工作提供了可操作的见解。
查看 arXiv 页面(https://arxiv.org/abs/2606.05259)查看 PDF(https://arxiv.org/pdf/2606.05259)GitHub9(https://github.com/Fu-Fu-Fu-Fu/VideoKR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05259)
社区
论文提交者
约4小时前(https://huggingface.co/papers/2606.05259#6a22310a7dfc55475849f099)
VideoKR 提出了一个大规模视频推理数据集与基准,旨在通过专家领域内容和人类参与的示例生成,增强知识密集型视频理解能力。
通过拖拽、粘贴或点击此处上传图像、音频和视频。
点击或在此处粘贴以上传图片
在您的代理中获取此论文:
hf papers read 2606.05259
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型4个
minuzero/VideoKR-Qwen3-VL-8B 视频-文本到文本• 9B• 更新于约4小时前 • 37 • 1(https://huggingface.co/minuzero/VideoKR-Qwen3-VL-8B)
minuzero/VideoKR-Qwen2.5-VL-7B-SFT 视频-文本到文本• 849k• 更新于约4小时前 • 34(https://huggingface.co/minuzero/VideoKR-Qwen2.5-VL-7B-SFT)
minuzero/VideoKR-Qwen3-VL-8B-SFT 视频-文本到文本• 770k• 更新于约4小时前 • 29(https://huggingface.co/minuzero/VideoKR-Qwen3-VL-8B-SFT)
minuzero/VideoKR-Qwen2.5-VL-7B 视频-文本到文本• 8B• 更新于约4小时前 • 40(https://huggingface.co/minuzero/VideoKR-Qwen2.5-VL-7B)
引用此论文的数据集2个
minuzero/VideoKR-Eval 查看器• 更新于约4小时前 • 2k • 741(https://huggingface.co/datasets/minuzero/VideoKR-Eval)
minuzero/VideoKR-Train 查看器• 更新于约4小时前 • 114k • 118(https://huggingface.co/datasets/minuzero/VideoKR-Train)
引用此论文的Space0个
没有Space链接此论文
请在Space的README.md中引用 arxiv.org/abs/2606.05259,以便从此页面链接。
包含此论文的收藏集0个
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
超大视频推理套件
本文介绍了超大视频推理(VBVR)数据集和基准,这是一个大规模资源,包含超过一百万个视频片段,涵盖200个推理任务,能够系统研究时空推理,并展示了早期出现的涌现泛化迹象。
CollabVR:基于视觉语言模型与视频生成模型的协作式视频推理
CollabVR 是一篇研究论文,提出了一种闭环框架,该框架通过协作整合视觉语言模型与视频生成模型,以改善视觉推理并实时纠正推理失败。
InternVideo3: 使用多模态上下文推理将基础模型智能体化
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。
视频模型可通过可验证奖励进行推理
VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。
观看、记忆、推理:基于MLLMs的人类视角视频理解
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。