VideoSeeker: 通过原生智能体工具调用激励实例级视频理解
摘要
VideoSeeker 引入了一种实例级视频理解的新范式,将智能体推理与视觉提示相结合,通过自动化数据合成和强化学习实现卓越性能,超越了 GPT-4o 和 Gemini-2.5-Pro。
查看缓存全文
缓存时间: 2026/05/19 10:31
论文页面 - VideoSeeker: 通过原生智能体工具调用激励实例级视频理解
来源: https://huggingface.co/papers/2605.16079 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
VideoSeeker 提出了一种新颖的实例级视频理解范式,通过将智能体推理与视觉提示相结合,借助自动化数据合成和强化学习实现了优越的性能。
大型视觉语言模型(https://huggingface.co/papers?q=Large%20Vision-Language%20Models)(LVLMs)在视频理解方面取得了显著进展,但在需要精确时空定位的实例级任务中仍面临巨大挑战。现有方法主要依赖文本提示进行人机交互,但这些提示难以提供精确的空间和时间参考,导致用户体验不佳。此外,当前方法通常将视觉感知与语言推理解耦,使推理以语言而非视觉内容为中心,限制了模型主动感知细粒度视觉证据的能力。为应对这些挑战,我们提出 VideoSeeker,一种通过视觉提示(https://huggingface.co/papers?q=visual%20prompts)实现实例级视频理解(https://huggingface.co/papers?q=instance-level%20video%20understanding)的新范式。VideoSeeker 将智能体推理(https://huggingface.co/papers?q=agentic%20reasoning)与实例级视频理解无缝集成,使模型能够按需主动感知和检索相关视频片段。我们构建了一个四阶段全自动数据合成(https://huggingface.co/papers?q=automated%20data%20synthesis)流水线,高效生成大规模、高质量的实例级视频数据。通过冷启动监督(https://huggingface.co/papers?q=cold-start%20supervision)和强化学习训练,将工具调用和主动感知能力内化到模型中,构建了一个强大的视频理解模型。实验表明,我们的模型在实例级视频理解任务上平均比基线提升 +13.7%,超越了 GPT-4o 和 Gemini-2.5-Pro 等强大的闭源模型,同时在通用视频理解基准上也展现出有效的迁移能力。相关数据集和代码将公开发布。
查看 arXiv 页面 (https://arxiv.org/abs/2605.16079)查看 PDF (https://arxiv.org/pdf/2605.16079)项目页面 (https://gaotiexinqu.github.io/VideoSeeker/)GitHub2 (https://github.com/gaotiexinqu/VideoSeeker)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16079)
在你的智能体中获取此论文:
hf papers read 2605.16079
还没有最新的命令行工具?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.16079 以从此页面链接。
引用此论文的数据集0
无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.16079 以从此页面链接。
引用此论文的 Spaces0
无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.16079 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以从此页面链接。
相似文章
您如何看待Higgsfield超级计算机和Invideo Agent One的对话式AI副驾视频制作方式?
讨论用于视频制作的对话式AI副驾方法,以Higgsfield超级计算机和Invideo Agent One为例,并质疑这种编排工作流程是否比直接使用底层模型更有价值。
DeepSeek-V4:百万Token上下文,真正可供智能体使用
DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。
为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine(98分钟阅读)
来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿,他认为视频模型从LLM中获取智能,并且视频生成的演变将模仿AI编程,从一次性输出转向多轮规划与执行。
VideoKR:面向知识和推理密集型视频理解
VideoKR 引入了一个大规模视频推理数据集和基准,旨在通过专家领域内容和人机协同的示例生成,增强知识密集型视频理解。该数据集包含 31.5万个视频推理示例,覆盖 14.5万个专家领域视频。
NVIDIA-AI-Blueprints/video-search-and-summarization
NVIDIA发布了一个参考蓝图,用于构建视觉智能体和AI驱动的视频分析应用,包括实时智能、下游分析以及用于搜索、摘要和问答的智能体工作流。