MetaphorVU:面向隐喻视频理解

Hugging Face Daily Papers 论文

摘要

本文介绍了MetaphorVU-Bench,这是首个针对隐喻视频理解的系统化基准,并提出了MetaphorBoost,一种推理时增强框架,可改善多模态大语言模型中的跨域映射。

隐喻视频在现实场景中普遍存在,用于传达复杂概念,而理解它们通常需要高阶认知能力。缺乏对隐喻视频理解的系统研究不仅限制了多模态大语言模型(MLLMs)的实际应用,也阻碍了对其高阶认知能力的全面评估。为填补这一空白,我们提出了MetaphorVU-Bench,这是首个系统全面、专门针对隐喻视频理解的基准。通过实验,我们发现当前的MLLMs在准确理解隐喻视频方面存在困难,远落后于人类水平,主要原因是跨域映射存在缺陷。受此启发,我们构建了一个隐喻知识图谱作为映射增强,并提出了MetaphorBoost,一种推理时增强框架,实现了持续的性能提升。我们的基准、分析和方法为未来推进MLLMs的研究提供了有益的见解和基础。
查看原文
查看缓存全文

缓存时间: 2026/05/26 02:41

论文页面 - MetaphorVU:迈向隐喻性视频理解

来源:https://huggingface.co/papers/2605.25461 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

当前的多模态大语言模型由于跨域映射能力不足,难以理解隐喻性视频,这促使我们开发新的基准测试与增强框架。

隐喻性视频广泛存在于各种真实场景中,用以传达复杂思想,理解它们通常需要高阶认知能力。目前缺乏对隐喻性视频理解的系统研究,这不仅限制了多模态大语言模型的实际应用,也阻碍了对其高阶认知能力的全面评估。为填补这一空白,我们提出了MetaphorVU-Bench,这是首个专门用于隐喻性视频理解的系统性综合基准。通过实验,我们发现当前的多模态大语言模型在准确的隐喻性视频理解方面表现不佳,远落后于人类水平,主要原因是糟糕的跨域映射能力。受此发现启发,我们构建了一个隐喻知识图谱作为映射增强,并提出了MetaphorBoost,一个推理时增强框架,实现了持续的性能提升。我们的基准、分析和研究为未来推动多模态大语言模型的研究提供了有益的见解和基础。

查看arXiv页面 查看PDF 项目页面 GitHub 添加到收藏

在您的智能体中获取本文:

hf papers read 2605.25461

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型链接本文

在模型README.md中引用arxiv.org/abs/2605.25461以从此页面链接。

引用本文的数据集1

lzq2021/MetaphorVU-Bench [查看]• 更新于12分钟前 • 861 • 1.73k • 3 (https://huggingface.co/datasets/lzq2021/MetaphorVU-Bench)

引用本文的空间0

尚无空间链接本文

在空间README.md中引用arxiv.org/abs/2605.25461以从此页面链接。

包含本文的收藏0

尚无收藏包含本文

将本文添加到收藏以从此页面链接。

相似文章

ViMU:视频隐喻理解基准

Hugging Face Daily Papers

ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准,采用无提示的开放式和多项选择题。