通过通用关键帧提取桥接VideoQA与视频引导的代理任务
摘要
本文介绍了VG-GUIBench,一个用于评估基于MLLM的GUI代理遵循视频教程能力的基准,并提出了TASKER,一种关键帧提取方法,可提升VideoQA和视频引导的代理任务的性能。
查看缓存全文
缓存时间: 2026/06/30 03:33
论文页面 - 通过通用关键帧提取桥接视频问答与视频引导的智能体任务
来源:https://huggingface.co/papers/2606.29445
摘要
一项新基准评估了多模态大语言模型理解视频内容并执行GUI任务的能力,同时一种新颖的关键帧提取方法在视频问答和视频引导的智能体任务上均提升了性能。
视频理解是多模态智能的基础能力,近年来多模态大语言模型(MLLMs)在视频问答(VideoQA)基准上取得了显著成绩。然而,现有基准主要评估模型是否能感知浅层视觉线索,很少检验MLLM能否从视频教程中学习更深层知识或程序性技能,并将其泛化到下游长周期智能体任务。为弥补这一缺口,我们提出了VG-GUIBench(视频引导的GUI基准),这是一个新基准,旨在评估基于MLLM的GUI智能体能否跟随视频教程完成相应的GUI交互任务。此外,我们观察到模型在视频问答和视频引导智能体任务上的性能很大程度上依赖于有效的关键帧提取。基于这一观察,我们提出了TASKER(任务驱动与场景感知的关键帧搜索器),一种联合考虑任务相关性和场景动态以识别信息帧的关键帧提取算法。实验结果表明,TASKER在视频问答和视频引导智能体任务基准上均取得了显著的性能提升,在EgoSchema全集上超越最佳基线2.0%,在NExT-QA数据集上超越1.8%。这些结果进一步凸显了通用关键帧提取方法在视频理解任务中的潜力。我们的代码和数据已在 https://github.com/VG-GUI-TASKER/VG-GUI-TASKER 开源。
查看 arXiv 页面 (https://arxiv.org/abs/2606.29445)查看 PDF (https://arxiv.org/pdf/2606.29445)项目页面 (https://vg-gui-tasker.github.io/)GitHub5 (https://github.com/VG-GUI-TASKER/VG-GUI-TASKER)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29445)
在您的智能体中获取此论文:
hf papers read 2606.29445
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.29445 以便从本页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.29445 以便从本页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.29445 以便从本页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以便从本页面链接。
相似文章
Video2GUI:合成大规模交互轨迹以进行通用GUI智能体预训练
提出了Video2GUI,一个从无标签教学视频中自动提取GUI交互轨迹的框架,构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练,在GUI定位和动作基准测试上提升了5-20%。
GUICrafter:弱监督GUI智能体,利用海量未标注截图
GUICrafter提出了一种弱监督GUI智能体,利用海量未标注截图和两阶段课程学习框架,减少对昂贵人工标注的依赖,仅用UI-TARS系统0.1%的数据即达到了与之竞争的性能。
Teach-and-Repeat: 从移动屏幕演示中准确提取操作知识以赋能GUI代理
介绍了Teach VLM,一种从移动屏幕演示中提取逐步操作知识的模型,以及Teach-and-Repeat范式,该范式利用这些知识指导GUI代理,在新基准上实现了最先进的性能。
VGenST-Bench:通过主动视频合成进行时空推理的基准测试
VGenST-Bench是一个基准测试,利用生成模型主动合成受控的时空推理场景,配备多智能体流水线和人工质量控制,用于评估多模态大语言模型。
VEFX-Bench:通用视频编辑与视觉特效的全方位基准
VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。