面向一对多时序定位
摘要
本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。
查看缓存全文
缓存时间: 2026/06/05 10:07
论文页面 - 迈向一对多时间定位
来源:https://huggingface.co/papers/2606.06294 发布于 6 月 4 日
·
提交者 https://huggingface.co/insomnia7
XuQi (https://huggingface.co/insomnia7)于 6 月 5 日
摘要
一对多时间定位(One-to-Many Temporal Grounding)通过构建综合性基准、提出新颖奖励函数及改进策略优化,解决了针对单一文本查询定位多个不连续视频片段的挑战。
时间定位(Temporal Grounding, TG)旨在定位与文本查询相对应的视频片段。以往研究主要聚焦于单片段检索。然而,现实场景通常需要针对单一查询定位多个不连续片段——我们将此设置称为一对多时间定位(One-to-Many Temporal Grounding, OMTG)。以往最先进的 MLLMs(多模态大语言模型)针对一对一定位进行了优化,在此场景下表现不佳,往往因缺乏事件基数感知能力而得到近乎为零的分数。为弥补这一差距,我们提出了一套系统解决方案,包含三个关键贡献。首先,我们建立了首个综合性 OMTG 基准,引入了计数准确率(Count Accuracy, C-Acc)和有效时间 F1(Effective Temporal F1, EtF1)作为评估指标。其次,我们通过一个精密的构建流程,整理了一个包含 56k 样本的高质量 OMTG 数据集。第三,我们专门为 OMTG 设计了新颖的时间奖励函数和描述奖励函数。其中,描述奖励利用基于密集视频描述的链式思维推理(Chain-of-Thought reasoning)明确引导策略优化(policy optimization)同时兼顾精确性与完整性。大量实验表明,我们的模型在 OMTG Bench 上达到了 43.65% 的新 SOTA EtF1,分别超越 Gemini 2.5 Pro 和 Seed-1.8 达 15.85% 和 15.61%。
查看 arXiv 页面 (https://arxiv.org/abs/2606.06294) 查看 PDF (https://arxiv.org/pdf/2606.06294) 项目页面 (https://insomniaaac.github.io/OMTG/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06294)
在您的代理中获取该论文:
hf papers read 2606.06294
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
无模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.06294 以从此页面链接。
引用此论文的数据集 2
insomnia7/omtg56k 查看器• 更新于约2小时前 • 56.2k • 148 (https://huggingface.co/datasets/insomnia7/omtg56k)
insomnia7/omtg_bench 查看器• 更新于约2小时前 • 287 • 102 (https://huggingface.co/datasets/insomnia7/omtg_bench)
引用此论文的空间 0
无空间链接此论文
在空间的 README.md 中引用 arxiv.org/abs/2606.06294 以从此页面链接。
包含此论文的收藏集 0
无收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
SGOCR:一个空间定位的、以OCR为核心的流水线与V1数据集 [P]
大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策
MusTBENCH:音乐LLMs中时间定位的基准测试与进展
MusTBench是一个用于评估大型音频-语言模型(LALMs)在音乐理解中的时间定位能力的基准。作者提出了MusT,一种四阶段训练方案,能显著提升现有模型的时间定位性能。
LocateAnything: 快速高质量的视觉-语言定位与并行框解码
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
GRASP:在多人物非语言交互中建立社交推理的根基
GRASP是一个大规模数据集,用于多人物视频中的社交推理,将高层次社交问题与细粒度的注视和手势事件联系起来,并引入了社交基础奖励(Social Grounding Reward)以提升多模态模型的理解能力。