VideoKR：面向知识和推理密集型视频理解

Hugging Face Daily Papers 2026/06/03 00:00 论文

video-reasoning dataset benchmark knowledge-intensive reasoning human-in-the-loop cot-rationales

摘要

VideoKR 引入了一个大规模视频推理数据集和基准，旨在通过专家领域内容和人机协同的示例生成，增强知识密集型视频理解。该数据集包含 31.5万个视频推理示例，覆盖 14.5万个专家领域视频。

我们推出了 VideoKR，这是首个专门为增强知识和推理密集型视频理解而设计的大规模训练语料库。它包含 31.5万个视频推理示例，覆盖 14.5万个新收集的、采用 CC 许可的专家领域视频。我们开发了一套人机协同、面向技能的示例生成流程，旨在逐步提升视频推理能力，同时确保示例及其思维链推理过程的难度、多样性和可靠性。我们还策划了 VideoKR-Eval，这是一个全新的专家标注基准，其问题要求真正的视频理解和知识密集型推理，而非文本捷径。实验表明，在标准的 SFT→GRPO 流程下，基于 VideoKR 后训练的模型在知识密集型视频推理上优于之前的后训练方法，同时在通用视频推理上保持竞争力，凸显了数据设计是推动视频推理进步的关键因素。我们进一步进行了全面的消融实验，以分离 VideoKR 的贡献，为未来工作提供可操作的见解。

查看原文

查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - VideoKR：面向知识与推理密集型视频理解

来源：https://huggingface.co/papers/2606.05259

摘要

VideoKR 提出了一个大规模视频推理数据集与基准，旨在通过专家领域内容和人类参与的示例生成，增强知识密集型视频理解能力。

我们引入了 VideoKR，这是首个专门为加强知识与推理密集型视频理解而设计的大规模训练语料库（https://huggingface.co/papers?q=large-scale%20training%20corpus）。它包含315K个视频推理示例（https://huggingface.co/papers?q=video%20reasoning），覆盖145K个新收集的、采用CC许可的专家领域视频。我们开发了一个人类参与的、面向技能的示例生成流程（https://huggingface.co/papers?q=human-in-the-loop），该流程针对逐步深化的视频推理能力（https://huggingface.co/papers?q=video%20reasoning），同时确保示例及其CoT推理过程（https://huggingface.co/papers?q=CoT%20rationales）的难度、多样性和可靠性。我们还精心整理了VideoKR-Eval，这是一个全新的专家标注基准（https://huggingface.co/papers?q=expert-annotated%20benchmark），其中的问题要求真正的视频理解和知识密集型推理，而非文本捷径。我们的实验表明，在标准的SFT→GRPO流程下，基于VideoKR后训练的模型在知识密集型视频推理任务上优于先前的后训练方法（https://huggingface.co/papers?q=post-training%20approaches），同时在通用视频推理上保持竞争力，这凸显了数据设计作为视频推理进展关键驱动力的作用。我们进一步进行了全面的消融实验，以分离VideoKR的贡献，为未来工作提供了可操作的见解。

查看 arXiv 页面（https://arxiv.org/abs/2606.05259）查看 PDF（https://arxiv.org/pdf/2606.05259）GitHub9（https://github.com/Fu-Fu-Fu-Fu/VideoKR）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.05259）

社区

论文提交者

约4小时前（https://huggingface.co/papers/2606.05259#6a22310a7dfc55475849f099）

VideoKR 提出了一个大规模视频推理数据集与基准，旨在通过专家领域内容和人类参与的示例生成，增强知识密集型视频理解能力。

通过拖拽、粘贴或点击此处上传图像、音频和视频。

点击或在此处粘贴以上传图片

在您的代理中获取此论文：

hf papers read 2606.05259

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型4个

minuzero/VideoKR-Qwen3-VL-8B 视频-文本到文本• 9B• 更新于约4小时前 • 37 • 1（https://huggingface.co/minuzero/VideoKR-Qwen3-VL-8B）

minuzero/VideoKR-Qwen2.5-VL-7B-SFT 视频-文本到文本• 849k• 更新于约4小时前 • 34（https://huggingface.co/minuzero/VideoKR-Qwen2.5-VL-7B-SFT）

minuzero/VideoKR-Qwen3-VL-8B-SFT 视频-文本到文本• 770k• 更新于约4小时前 • 29（https://huggingface.co/minuzero/VideoKR-Qwen3-VL-8B-SFT）

minuzero/VideoKR-Qwen2.5-VL-7B 视频-文本到文本• 8B• 更新于约4小时前 • 40（https://huggingface.co/minuzero/VideoKR-Qwen2.5-VL-7B）

引用此论文的数据集2个

minuzero/VideoKR-Eval 查看器• 更新于约4小时前 • 2k • 741（https://huggingface.co/datasets/minuzero/VideoKR-Eval）

minuzero/VideoKR-Train 查看器• 更新于约4小时前 • 114k • 118（https://huggingface.co/datasets/minuzero/VideoKR-Train）

引用此论文的Space0个

没有Space链接此论文

请在Space的README.md中引用 arxiv.org/abs/2606.05259，以便从此页面链接。

包含此论文的收藏集0个

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

VideoKR：面向知识和推理密集型视频理解

论文页面 - VideoKR：面向知识与推理密集型视频理解

摘要

社区

引用此论文的模型4个

minuzero/VideoKR-Qwen3-VL-8B 视频-文本到文本• 9B• 更新于约4小时前 • 37 • 1（https://huggingface.co/minuzero/VideoKR-Qwen3-VL-8B）

minuzero/VideoKR-Qwen2.5-VL-7B-SFT 视频-文本到文本• 849k• 更新于约4小时前 • 34（https://huggingface.co/minuzero/VideoKR-Qwen2.5-VL-7B-SFT）

minuzero/VideoKR-Qwen3-VL-8B-SFT 视频-文本到文本• 770k• 更新于约4小时前 • 29（https://huggingface.co/minuzero/VideoKR-Qwen3-VL-8B-SFT）

minuzero/VideoKR-Qwen2.5-VL-7B 视频-文本到文本• 8B• 更新于约4小时前 • 40（https://huggingface.co/minuzero/VideoKR-Qwen2.5-VL-7B）

引用此论文的数据集2个

minuzero/VideoKR-Eval 查看器• 更新于约4小时前 • 2k • 741（https://huggingface.co/datasets/minuzero/VideoKR-Eval）

minuzero/VideoKR-Train 查看器• 更新于约4小时前 • 114k • 118（https://huggingface.co/datasets/minuzero/VideoKR-Train）

引用此论文的Space0个

包含此论文的收藏集0个

相似文章

超大视频推理套件

CollabVR：基于视觉语言模型与视频生成模型的协作式视频推理

InternVideo3: 使用多模态上下文推理将基础模型智能体化

视频模型可通过可验证奖励进行推理

观看、记忆、推理：基于MLLMs的人类视角视频理解

提交意见反馈