MetaphorVU:面向隐喻视频理解
摘要
本文介绍了MetaphorVU-Bench,这是首个针对隐喻视频理解的系统化基准,并提出了MetaphorBoost,一种推理时增强框架,可改善多模态大语言模型中的跨域映射。
查看缓存全文
缓存时间: 2026/05/26 02:41
论文页面 - MetaphorVU:迈向隐喻性视频理解
来源:https://huggingface.co/papers/2605.25461 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
当前的多模态大语言模型由于跨域映射能力不足,难以理解隐喻性视频,这促使我们开发新的基准测试与增强框架。
隐喻性视频广泛存在于各种真实场景中,用以传达复杂思想,理解它们通常需要高阶认知能力。目前缺乏对隐喻性视频理解的系统研究,这不仅限制了多模态大语言模型的实际应用,也阻碍了对其高阶认知能力的全面评估。为填补这一空白,我们提出了MetaphorVU-Bench,这是首个专门用于隐喻性视频理解的系统性综合基准。通过实验,我们发现当前的多模态大语言模型在准确的隐喻性视频理解方面表现不佳,远落后于人类水平,主要原因是糟糕的跨域映射能力。受此发现启发,我们构建了一个隐喻知识图谱作为映射增强,并提出了MetaphorBoost,一个推理时增强框架,实现了持续的性能提升。我们的基准、分析和研究为未来推动多模态大语言模型的研究提供了有益的见解和基础。
查看arXiv页面 查看PDF 项目页面 GitHub 添加到收藏
在您的智能体中获取本文:
hf papers read 2605.25461
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
尚无模型链接本文
在模型README.md中引用arxiv.org/abs/2605.25461以从此页面链接。
引用本文的数据集1
lzq2021/MetaphorVU-Bench [查看]• 更新于12分钟前 • 861 • 1.73k • 3 (https://huggingface.co/datasets/lzq2021/MetaphorVU-Bench)
引用本文的空间0
尚无空间链接本文
在空间README.md中引用arxiv.org/abs/2605.25461以从此页面链接。
包含本文的收藏0
尚无收藏包含本文
将本文添加到收藏以从此页面链接。
相似文章
ViMU:视频隐喻理解基准
ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准,采用无提示的开放式和多项选择题。
基于 MIPVU 框架的 Token 级中文隐喻识别多架构可复现基线
本文利用 MIPVU 框架和 PSU 中文隐喻语料库,建立了用于 Token 级中文隐喻识别的可复现多架构基线。研究比较了 RoBERTa 和 MelBERT 等编码器模型与 Qwen3.5-9B 生成式模型的性能,并开源代码和数据以推动后续研究。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
观看、记忆、推理:基于MLLMs的人类视角视频理解
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。