VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

Hugging Face Daily Papers 2026/05/15 00:00 论文

摘要

VideoSeeker 引入了一种实例级视频理解的新范式，将智能体推理与视觉提示相结合，通过自动化数据合成和强化学习实现卓越性能，超越了 GPT-4o 和 Gemini-2.5-Pro。

大型视觉语言模型 (LVLMs) 在视频理解方面取得了显著进展，但在需要精确时空定位的实例级任务中仍面临巨大挑战。现有方法主要依赖文本提示进行人机交互，但这些提示难以提供精确的空间和时间参考，导致用户体验不佳。此外，当前方法通常将视觉感知与语言推理解耦，使推理围绕语言而非视觉内容展开，限制了模型主动感知细粒度视觉证据的能力。为解决这些问题，我们提出了 VideoSeeker，一种通过视觉提示实现实例级视频理解的新范式。VideoSeeker 将智能体推理与实例级视频理解任务无缝集成，使模型能够主动按需感知和检索相关视频片段。我们构建了一个四阶段全自动数据合成流水线，高效生成大规模、高质量的实例级视频数据。通过冷启动监督和强化学习训练，我们将工具调用和主动感知能力内化到模型中，构建了一个强大的视频理解模型。实验表明，我们的模型在实例级视频理解任务上相比基线平均提升 +13.7%，超越了 GPT-4o 和 Gemini-2.5-Pro 等强大的闭源模型，并在通用视频理解基准上展现出有效的迁移能力。相关数据集和代码将公开发布。

查看原文

查看缓存全文

缓存时间: 2026/05/19 10:31

论文页面 - VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

来源: https://huggingface.co/papers/2605.16079 作者:

摘要

VideoSeeker 提出了一种新颖的实例级视频理解范式，通过将智能体推理与视觉提示相结合，借助自动化数据合成和强化学习实现了优越的性能。

大型视觉语言模型（https://huggingface.co/papers?q=Large%20Vision-Language%20Models）（LVLMs）在视频理解方面取得了显著进展，但在需要精确时空定位的实例级任务中仍面临巨大挑战。现有方法主要依赖文本提示进行人机交互，但这些提示难以提供精确的空间和时间参考，导致用户体验不佳。此外，当前方法通常将视觉感知与语言推理解耦，使推理以语言而非视觉内容为中心，限制了模型主动感知细粒度视觉证据的能力。为应对这些挑战，我们提出 VideoSeeker，一种通过视觉提示（https://huggingface.co/papers?q=visual%20prompts）实现实例级视频理解（https://huggingface.co/papers?q=instance-level%20video%20understanding）的新范式。VideoSeeker 将智能体推理（https://huggingface.co/papers?q=agentic%20reasoning）与实例级视频理解无缝集成，使模型能够按需主动感知和检索相关视频片段。我们构建了一个四阶段全自动数据合成（https://huggingface.co/papers?q=automated%20data%20synthesis）流水线，高效生成大规模、高质量的实例级视频数据。通过冷启动监督（https://huggingface.co/papers?q=cold-start%20supervision）和强化学习训练，将工具调用和主动感知能力内化到模型中，构建了一个强大的视频理解模型。实验表明，我们的模型在实例级视频理解任务上平均比基线提升 +13.7%，超越了 GPT-4o 和 Gemini-2.5-Pro 等强大的闭源模型，同时在通用视频理解基准上也展现出有效的迁移能力。相关数据集和代码将公开发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.16079)查看 PDF (https://arxiv.org/pdf/2605.16079)项目页面 (https://gaotiexinqu.github.io/VideoSeeker/)GitHub2 (https://github.com/gaotiexinqu/VideoSeeker)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16079)

在你的智能体中获取此论文：

hf papers read 2605.16079

还没有最新的命令行工具？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.16079 以从此页面链接。

引用此论文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.16079 以从此页面链接。

引用此论文的 Spaces0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.16079 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以从此页面链接。

VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

论文页面 - VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

您如何看待Higgsfield超级计算机和Invideo Agent One的对话式AI副驾视频制作方式？

DeepSeek-V4：百万Token上下文，真正可供智能体使用

为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine（98分钟阅读）

VideoKR：面向知识和推理密集型视频理解

NVIDIA-AI-Blueprints/video-search-and-summarization

提交意见反馈