通过通用关键帧提取桥接VideoQA与视频引导的代理任务

Hugging Face Daily Papers 论文

摘要

本文介绍了VG-GUIBench,一个用于评估基于MLLM的GUI代理遵循视频教程能力的基准,并提出了TASKER,一种关键帧提取方法,可提升VideoQA和视频引导的代理任务的性能。

视频理解是多模态智能的基本能力,近年来多模态大语言模型(MLLM)在视频问答(VideoQA)基准上取得了显著进展。然而,现有基准主要评估模型是否能感知浅层视觉线索,很少检验MLLM是否能从视频教程中学习深层知识或程序性技能,并将其泛化到下游的长时域代理任务中。为填补这一空白,我们引入了VG-GUIBench(视频引导的GUI基准),这是一个新基准,旨在评估基于MLLM的GUI代理是否能够遵循视频教程完成相应的GUI交互任务。此外,我们观察到模型在VideoQA和视频引导的代理任务上的性能关键依赖于有效的关键帧提取。基于这一观察,我们提出了TASKER(任务驱动与场景感知的关键帧搜索器),一种联合考虑任务相关性与场景动态以识别信息帧的关键帧提取算法。实验结果表明,TASKER在VideoQA和视频引导的代理任务基准上均取得了显著性能提升,在EgoSchema完整集上比最佳基线高出2.0%,在NExT-QA数据集上高出1.8%。这些结果进一步凸显了通用关键帧提取方法在视频理解任务中的潜力。我们的代码和数据可在https://github.com/VG-GUI-TASKER/VG-GUI-TASKER获取。
查看原文
查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - 通过通用关键帧提取桥接视频问答与视频引导的智能体任务

来源:https://huggingface.co/papers/2606.29445

摘要

一项新基准评估了多模态大语言模型理解视频内容并执行GUI任务的能力,同时一种新颖的关键帧提取方法在视频问答和视频引导的智能体任务上均提升了性能。

视频理解是多模态智能的基础能力,近年来多模态大语言模型(MLLMs)在视频问答(VideoQA)基准上取得了显著成绩。然而,现有基准主要评估模型是否能感知浅层视觉线索,很少检验MLLM能否从视频教程中学习更深层知识或程序性技能,并将其泛化到下游长周期智能体任务。为弥补这一缺口,我们提出了VG-GUIBench(视频引导的GUI基准),这是一个新基准,旨在评估基于MLLM的GUI智能体能否跟随视频教程完成相应的GUI交互任务。此外,我们观察到模型在视频问答和视频引导智能体任务上的性能很大程度上依赖于有效的关键帧提取。基于这一观察,我们提出了TASKER(任务驱动与场景感知的关键帧搜索器),一种联合考虑任务相关性和场景动态以识别信息帧的关键帧提取算法。实验结果表明,TASKER在视频问答和视频引导智能体任务基准上均取得了显著的性能提升,在EgoSchema全集上超越最佳基线2.0%,在NExT-QA数据集上超越1.8%。这些结果进一步凸显了通用关键帧提取方法在视频理解任务中的潜力。我们的代码和数据已在 https://github.com/VG-GUI-TASKER/VG-GUI-TASKER 开源。

查看 arXiv 页面 (https://arxiv.org/abs/2606.29445)查看 PDF (https://arxiv.org/pdf/2606.29445)项目页面 (https://vg-gui-tasker.github.io/)GitHub5 (https://github.com/VG-GUI-TASKER/VG-GUI-TASKER)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29445)

在您的智能体中获取此论文:

hf papers read 2606.29445

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.29445 以便从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.29445 以便从本页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.29445 以便从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以便从本页面链接。

相似文章

VEFX-Bench:通用视频编辑与视觉特效的全方位基准

Hugging Face Daily Papers

VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。