面向一对多时序定位

Hugging Face Daily Papers 2026/06/04 00:00 论文

temporal-grounding video-understanding multimodal benchmark chain-of-thought dataset policy-optimization

摘要

本文介绍了一对多时序定位（OMTG）这一新任务，用于从单个文本查询中定位多个不连续的视频片段，同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数，取得了最新最优的结果，优于Gemini 2.5 Pro和Seed-1.8。

时序定位（Temporal Grounding）旨在定位与文本查询对应的视频片段。以往研究主要聚焦于单片段检索。然而，现实场景中常需针对单个查询定位多个不连续的片段——我们将此设定称为一对多时序定位（One-to-Many Temporal Grounding，OMTG）。以往最先进的多模态大语言模型（MLLMs）针对一对一设定优化，在此场景下表现不佳，往往因缺乏事件基数感知而得分近乎为零。为填补这一空白，我们提出了一套包含三项关键贡献的系统性解决方案。首先，我们建立了首个全面的OMTG基准，并引入计数准确率（Count Accuracy, C-Acc）和有效时序F1（Effective Temporal F1, EtF1）作为评估指标。其次，通过精心设计的构建流程，我们整理了一个包含56k样本的高质量OMTG数据集。第三，我们专门为OMTG设计了新颖的时序和描述奖励函数。其中，描述奖励利用基于密集视频描述的思维链推理，显式引导策略优化兼顾精确性与完整性。大量实验表明，我们的模型在OMTG基准上达到了43.65%的最新EtF1最优结果，分别优于Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。

查看原文

查看缓存全文

缓存时间: 2026/06/05 10:07

论文页面 - 迈向一对多时间定位

来源：https://huggingface.co/papers/2606.06294 发布于 6 月 4 日

提交者 https://huggingface.co/insomnia7

XuQi (https://huggingface.co/insomnia7)于 6 月 5 日

摘要

一对多时间定位（One-to-Many Temporal Grounding）通过构建综合性基准、提出新颖奖励函数及改进策略优化，解决了针对单一文本查询定位多个不连续视频片段的挑战。

时间定位（Temporal Grounding, TG）旨在定位与文本查询相对应的视频片段。以往研究主要聚焦于单片段检索。然而，现实场景通常需要针对单一查询定位多个不连续片段——我们将此设置称为一对多时间定位（One-to-Many Temporal Grounding, OMTG）。以往最先进的 MLLMs（多模态大语言模型）针对一对一定位进行了优化，在此场景下表现不佳，往往因缺乏事件基数感知能力而得到近乎为零的分数。为弥补这一差距，我们提出了一套系统解决方案，包含三个关键贡献。首先，我们建立了首个综合性 OMTG 基准，引入了计数准确率（Count Accuracy, C-Acc）和有效时间 F1（Effective Temporal F1, EtF1）作为评估指标。其次，我们通过一个精密的构建流程，整理了一个包含 56k 样本的高质量 OMTG 数据集。第三，我们专门为 OMTG 设计了新颖的时间奖励函数和描述奖励函数。其中，描述奖励利用基于密集视频描述的链式思维推理（Chain-of-Thought reasoning）明确引导策略优化（policy optimization）同时兼顾精确性与完整性。大量实验表明，我们的模型在 OMTG Bench 上达到了 43.65% 的新 SOTA EtF1，分别超越 Gemini 2.5 Pro 和 Seed-1.8 达 15.85% 和 15.61%。

查看 arXiv 页面 (https://arxiv.org/abs/2606.06294) 查看 PDF (https://arxiv.org/pdf/2606.06294) 项目页面 (https://insomniaaac.github.io/OMTG/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06294)

在您的代理中获取该论文：

hf papers read 2606.06294

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.06294 以从此页面链接。

引用此论文的数据集 2

insomnia7/omtg56k 查看器• 更新于约2小时前 • 56.2k • 148 (https://huggingface.co/datasets/insomnia7/omtg56k)

insomnia7/omtg_bench 查看器• 更新于约2小时前 • 287 • 102 (https://huggingface.co/datasets/insomnia7/omtg_bench)

引用此论文的空间 0

无空间链接此论文

在空间的 README.md 中引用 arxiv.org/abs/2606.06294 以从此页面链接。

包含此论文的收藏集 0

无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

面向一对多时序定位

论文页面 - 迈向一对多时间定位

摘要

引用此论文的模型 0

引用此论文的数据集 2

insomnia7/omtg56k 查看器• 更新于约2小时前 • 56.2k • 148 (https://huggingface.co/datasets/insomnia7/omtg56k)

insomnia7/omtg_bench 查看器• 更新于约2小时前 • 287 • 102 (https://huggingface.co/datasets/insomnia7/omtg_bench)

引用此论文的空间 0

包含此论文的收藏集 0

相似文章

AnyGroundBench: 视觉语言模型中视频定位的专业领域基准

TimeLens2: 通用视频时间定位与多模态大语言模型

OVO-S-Bench：面向多模态大语言模型流式空间智能的层次化基准测试

面向音视频事件定位的层次化语义约束异构图

将机器人视频分割为可执行的子任务

提交意见反馈