面向一对多时序定位

Hugging Face Daily Papers 论文

摘要

本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。

时序定位(Temporal Grounding)旨在定位与文本查询对应的视频片段。以往研究主要聚焦于单片段检索。然而,现实场景中常需针对单个查询定位多个不连续的片段——我们将此设定称为一对多时序定位(One-to-Many Temporal Grounding,OMTG)。以往最先进的多模态大语言模型(MLLMs)针对一对一设定优化,在此场景下表现不佳,往往因缺乏事件基数感知而得分近乎为零。为填补这一空白,我们提出了一套包含三项关键贡献的系统性解决方案。首先,我们建立了首个全面的OMTG基准,并引入计数准确率(Count Accuracy, C-Acc)和有效时序F1(Effective Temporal F1, EtF1)作为评估指标。其次,通过精心设计的构建流程,我们整理了一个包含56k样本的高质量OMTG数据集。第三,我们专门为OMTG设计了新颖的时序和描述奖励函数。其中,描述奖励利用基于密集视频描述的思维链推理,显式引导策略优化兼顾精确性与完整性。大量实验表明,我们的模型在OMTG基准上达到了43.65%的最新EtF1最优结果,分别优于Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。
查看原文
查看缓存全文

缓存时间: 2026/06/05 10:07

论文页面 - 迈向一对多时间定位

来源:https://huggingface.co/papers/2606.06294 发布于 6 月 4 日

·

提交者 https://huggingface.co/insomnia7

XuQi (https://huggingface.co/insomnia7)于 6 月 5 日

摘要

一对多时间定位(One-to-Many Temporal Grounding)通过构建综合性基准、提出新颖奖励函数及改进策略优化,解决了针对单一文本查询定位多个不连续视频片段的挑战。

时间定位(Temporal Grounding, TG)旨在定位与文本查询相对应的视频片段。以往研究主要聚焦于单片段检索。然而,现实场景通常需要针对单一查询定位多个不连续片段——我们将此设置称为一对多时间定位(One-to-Many Temporal Grounding, OMTG)。以往最先进的 MLLMs(多模态大语言模型)针对一对一定位进行了优化,在此场景下表现不佳,往往因缺乏事件基数感知能力而得到近乎为零的分数。为弥补这一差距,我们提出了一套系统解决方案,包含三个关键贡献。首先,我们建立了首个综合性 OMTG 基准,引入了计数准确率(Count Accuracy, C-Acc)和有效时间 F1(Effective Temporal F1, EtF1)作为评估指标。其次,我们通过一个精密的构建流程,整理了一个包含 56k 样本的高质量 OMTG 数据集。第三,我们专门为 OMTG 设计了新颖的时间奖励函数和描述奖励函数。其中,描述奖励利用基于密集视频描述的链式思维推理(Chain-of-Thought reasoning)明确引导策略优化(policy optimization)同时兼顾精确性与完整性。大量实验表明,我们的模型在 OMTG Bench 上达到了 43.65% 的新 SOTA EtF1,分别超越 Gemini 2.5 Pro 和 Seed-1.8 达 15.85% 和 15.61%。

查看 arXiv 页面 (https://arxiv.org/abs/2606.06294) 查看 PDF (https://arxiv.org/pdf/2606.06294) 项目页面 (https://insomniaaac.github.io/OMTG/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06294)

在您的代理中获取该论文:

hf papers read 2606.06294

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.06294 以从此页面链接。

引用此论文的数据集 2

insomnia7/omtg56k 查看器• 更新于约2小时前 • 56.2k • 148 (https://huggingface.co/datasets/insomnia7/omtg56k)

insomnia7/omtg_bench 查看器• 更新于约2小时前 • 287 • 102 (https://huggingface.co/datasets/insomnia7/omtg_bench)

引用此论文的空间 0

无空间链接此论文

在空间的 README.md 中引用 arxiv.org/abs/2606.06294 以从此页面链接。

包含此论文的收藏集 0

无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试

Papers with Code Trending

OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。

SGOCR:一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning

大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策

GRASP:在多人物非语言交互中建立社交推理的根基

Hugging Face Daily Papers

GRASP是一个大规模数据集,用于多人物视频中的社交推理,将高层次社交问题与细粒度的注视和手势事件联系起来,并引入了社交基础奖励(Social Grounding Reward)以提升多模态模型的理解能力。