HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
摘要
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
arXiv:2604.15648v1 公告类型:新投稿
摘要:大型视觉-语言模型(LVLM)不断需要新的评估领域来指引其能力边界的拓展,但其在超图上的能力仍未被探索。在实际应用中,超图在生命科学和社区分析等领域具有重要意义。最近 LVLM 的进展表明其在理解复杂拓扑结构方面有一定潜力,但缺乏相应的基准来评估 LVLM 在超图领域的能力,这使得其能力边界仍不明确。为了填补这一空白,本论文引入 $\texttt{HyperGVL}$,这是首个评估 LVLM 在超图理解和推理上能力的基准。$\texttt{HyperGVL}$ 对 12 个先进的 LVLM 进行了全面评估,涵盖 84,000 个视觉-语言问答(QA)样本,跨越 12 个任务,从基础的组件计数到复杂的 NP 难问题推理。所涉及的超图包含多尺度的合成结构以及现实世界的引文网络和蛋白质网络。此外,我们研究了 12 种文本和视觉超图表示方法的效果,并引入了可泛化的路由器 $\texttt{WiseHyGR}$,通过学习自适应表示来提升 LVLM 在超图上的性能。我们认为这项工作推进了超图与 LVLM 的融合研究。
查看缓存全文
缓存时间: 2026/04/20 08:28
# HyperGVL:大型视觉语言模型在超图理解和推理中的基准测试和改进 来源:https://arxiv.org/html/2604.15648 Yanbin Wei1,2 Chun Kang411footnotemark:1 Siwei Li4 Haoxuan Che3 Yang Chen1 Hua Liu1 Jian Liu4 Zhuang Liu4 Can Ouyang4 Fei Xing1 Lei Sha4 Rui Liu322footnotemark:2 Yu Zhang122footnotemark:2 James Kwok2 1南方科技大学 2香港科技大学 3华为研究 4北京航空航天大学 ###### 摘要 大型视觉语言模型(LVLMs)需要不断探索新的评估领域来拓展其能力边界,但它们在超图理解方面的能力仍未被探索。在现实世界中,超图在生命科学和社交社区等领域具有重要的实际应用。尽管LVLMs在理解复杂拓扑结构方面取得了进展,但目前缺乏评估LVLMs超图理解能力的基准,这使得其能力边界尚不明确。为了填补这一空白,本文引入HyperGVL,这是第一个用于评估LVLMs超图理解和推理能力的基准。HyperGVL对12个先进的LVLMs进行了全面评估,涵盖84,000个视觉语言问答(QA)样本,跨越12项任务,从基本的成分计数到复杂的NP困难问题推理。所涉及的超图包含多尺度合成结构以及现实世界的引文和蛋白质网络。此外,我们研究了12种文本和视觉超图表示方法的效果,并引入了一个通用路由器WiseHyGR,该路由器通过学习自适应表示来改进LVLMs在超图上的表现。我们相信这项工作是连接超图与LVLMs的重要一步。 HyperGVL:大型视觉语言模型在超图理解和推理中的基准测试和改进 Yanbin Wei1,2††感谢:等量贡献。Chun Kang411footnotemark:1 Siwei Li4 Haoxuan Che3 Yang Chen1 Hua Liu1 Jian Liu4 Zhuang Liu4 Can Ouyang4 Fei Xing1 Lei Sha4††感谢:通讯作者。Rui Liu322footnotemark:2 Yu Zhang122footnotemark:2 James Kwok2 1南方科技大学 2香港科技大学 3华为研究 4北京航空航天大学 ## 1 引言 图是用于建模现实世界中抽象概念或有形对象之间关系的基本数据结构。在图的子类别中,超图尤为重要,因为其超边能够有效地建模三个或更多个实体之间的高阶相关性。超图的应用在现实世界中很普遍。例如,在社交网络中,超图可以自然地表示社群互动,其中一条超边可以连接任意数量的顶点,反映社群内部复杂的高阶关系(Contisciani等人,2022)。类似地,在生命科学中,超图擅长建模蛋白质结构中的催化三元组等相互作用(Ravetz等人,2019),而仅关注成对关系的普通图则不足以应对。最近的进展还显示超图在更准确地建模检索增强生成中信息之间复杂关系方面的潜力(Feng等人,2025a)。  表1:HyperGVL与相关图分析基准的比较(针对LVLMs/LLMs)。#Tasks:响应类型数量;#Samples:总测试样本数;✓/✗:是否支持高阶关系。 另一方面,大型视觉语言模型(LVLMs)在广泛的下游任务中表现出色,具有类似人类的理解和推理能力(Li等人,2025b)。这引发了将LVLMs用于图学习问题的日益增长的兴趣,因为视觉模式为理解结构信息和促进图相关推理提供了自然的方式,其中GVLQA(Wei等人,2024)、VisionGraph(Li等人,2024)和VGCure(Zhu等人,2025b)是此类方法中的首批。然而,它们的范围限制在普通图上,并未探索LVLMs在超图高阶关系上的潜能。 为了解决这一差距,我们引入HyperGVL(图1),这是第一个为评估LVLMs在超图上的能力而设计的综合基准数据集。HyperGVL包含84,000个视觉语言问答对,涵盖多尺度合成超图和来自引文及蛋白质网络的现实世界超图。评估涵盖12项任务,难度级别各不相同,从基本的超图成分理解到具有挑战性的NP困难问题推理。此外,HyperGVL集成了7种文本和5种视觉超图表示方法,提供了关于任务偏好和模型能力边界跨越这些多样化表示的见解。 基于LVLMs在不同超图表示下的表现,我们训练了WiseHyGR,一个通用路由器,可以为给定的超图问题选择合适的超图表示。实验结果验证了WiseHyGR通常可以增强LVLMs的超图理解和推理能力,且这些改进可以泛化到域外下游任务。 本工作的贡献有三方面。 - • 我们构建了HyperGVL基准,这是一个用于评估LVLMs超图理解和推理能力的新型竞技场。 - • 我们对12个领先的LVLMs在HyperGVL上进行了广泛的评估,并暴露了它们的实际能力。来自各个角度的专门评估贡献了14个有价值的观察。 - • 基于模型在超图表示中的表现,我们训练了WiseHyGR,一个通用路由器,用于提升LVLMs在超图理解和推理任务上的表现。 ## 2 HyperGVL基准 在本节中,我们介绍HyperGVL基准,该基准旨在划定LVLMs处理超图高阶结构能力的边界。 ### 2.1 基准的独特性 表1强调了HyperGVL在现有基准景观中的独特作用。与传统的图相关LVLM基准不同,HyperGVL深入探讨了超图内在的高阶关系,超越了普通图的局限性。此外,与仅有文本的大型语言模型(LLM)超图基准相比,HyperGVL集成了LVLMs独有的视觉感知效果,并通过纳入复杂的推理挑战来增强任务多样性和复杂性。更多相关工作在附录A中介绍。 ### 2.2 超图组织 HyperGVL中的超图涉及仔细考虑,以确保合理的组织。首先,HyperGVL基准包含合成超图和现实世界超图的等比例分布。合成超图使用随机和规则结构化方法生成,提供了受控的测试环境。相比之下,现实世界超图来自匿名引文和蛋白质网络,提供了对现实应用的实际见解。 为了确保复杂性的平衡以进行全面评估,我们采用了Feng等人(2025b)的规模分割协议,并按顶点数将超图组织成三个规模组:小、中、大,分布比例为1:2:1。此分类便于评估模型在不同复杂性水平上的表现。获取这些超图的过程的详细描述在附录B中提供。 ### 2.3 基准任务 在本节中,我们介绍HyperGVL中的任务及其设计考虑。 #### 2.3.1 设计原则 HyperGVL中的任务围绕两个核心维度设计:**评估能力**和**响应类型**。 对于**评估能力**,任务分为两大类:理解和推理。理解任务评估三个关键的原子能力:(1)基本元素捕获,涉及识别顶点和超边;(2)邻接感知,涉及理解顶点之间的邻接关系;(3)启发式计算,包括计算启发式值如顶点度数和超边阶数(即超边中的顶点数)。另一方面,推理任务评估模型在以下方面的能力:(1)算法,涉及解决具有明确算法的问题;(2)规划,其中问题是NP困难的并缺乏明确的算法,需要模型主动规划和制定有效的解决方案。 基于这些评估能力,所有任务被分为四级**难度**层级:第1级(查询单一原子能力)、第2级(组合复合原子能力)、第3级(多项式可解算法)和第4级(NP困难规划)。此分层与任务复杂性一致(Bylander,1994),我们旨在验证它是否与LVLMs的实际能力谱一致。 对于**响应类型**,任务被分为四种类型:(1)计数、(2)计算、(3)决策和(4)描述性任务。此分类法使LVLMs能够进行全面评估,涵盖多样化的认知过程。 与LLM4Hypergraph(Feng等人,2025b)不同,后者为最近的模型提供了相对简单的任务(例如,Gemini-3 Flash在我们的测试中其13个任务中有15个达到了90%以上的零样本精度),所提议的基准引入了更具挑战性的任务,需要超越结构理解的推理。此设计与不断发展的模型能力一致,为其未来改进留足了空间。总体而言,HyperGVL中的任务分布涵盖了更广的难度和多样性范围,建立了LVLMs的综合评估框架。 | 任务 | 能力 | 响应类型 | 难度 | 示例 | 样本数 | |------|------|---------|------|------|--------| | **理解任务** | | | | | **42,000** | | VC | 元素 | 计数 | 第1级 | Q:超图G中有多少个顶点?A:15。 | 7,000 | | HEC | 元素 | 计数 | 第1级 | Q:超图G中有多少条超边?A:23。 | 7,000 | | Ne | 邻接 | 描述性 | 第1级 | Q:在超图G中,顶点v4的直接邻居是什么?A:v0,v3,v5。 | 7,000 | | DVC | 启发式&元素 | 计数 | 第2级 | Q:在超图G中有多少个顶点的度数为3?A:7。 | 7,000 | | OEC | 启发式&元素 | 计数 | 第2级 | Q:在超图G中有多少条超边的阶数为4?A:8。 | 7,000 | | ONe | 启发式&邻接 | 描述性 | 第2级 | Q:在超图G中,当仅考虑阶数>=2的超边时,顶点v5的邻居是什么?A:v0,v3。 | 7,000 | | **推理任务** | | | | | **42,000** | | OSP | 算法 | 计算 | 第3级 | Q:从v4到v8的阶数加权最短路径长度是多少?A:8。 | 7,000 | | OMF | 算法 | 计算 | 第3级 | Q:从v4到v8的阶数加权最大流是多少?A:19。 | 7,000 | | ISM | 算法 | 决策 | 第3级 | Q:这两个超图同构吗?A:是。 | 7,000 | | 3-CL | 规划 | 描述性 | 第4级(NP困难) | Q:请提供一个3着色策略,使得每条超边包含至少2种不同颜色的节点。A:着色:[v0:c0,v1:c1,v2:c2,v3:c0,v4:c1,v5:c2]。 | 7,000 | | SHC | 规划 | 描述性 | 第4级(NP困难) | Q:请在超图G中找到一个严格超环。A:环:[e0,e3,e2,e4,e1]。 | 7,000 | | HHM | 规划 | 描述性 | 第4级(NP困难) | Q:请提供从v1到v0的有效哈密尔顿路径。(哈密尔顿路径=访问所有顶点恰好一次的路径)。A:路径:[e0,e1,e2,e3]。 | 7,000 | 表2:HyperGVL中所有超图理解和推理任务的属性、统计数据和示例。 #### 2.3.2 任务描述 本节简要介绍HyperGVL中的所有任务。更多细节在附录C中。 **超图理解任务**旨在评估超图的组成、拓扑和基本启发式。这些任务主要分为以下六种类型。 - • **顶点计数(VC)**:计算给定超图中的顶点数量。 - • **超边计数(HEC)**:计算给定超图中的超边数量。 - • **邻居(Ne)**:识别由超边连接的指定顶点的直接邻居。 - • **度数指定顶点计数(DVC)**:计算超图中具有特定度数值的顶点。 - • **阶数指定超边计数(OEC)**:计算超图中具有特定阶数的超边。 - • **阶数筛选邻居(ONe)**:在仅考虑阶数不小于指定阈值的超边时,识别顶点的邻居。 这些任务的相关**评估能力**、**难度级别**和**响应类型**详见表2的上半部分,并附有示例。 **超图推理任务**旨在解决超图中复杂的多步推理挑战。除了理解超图结构和计算启发式外,这些任务还需要将原子能力组织成复杂的迭代过程以解决复杂的超图问题。这些任务主要分为以下六种类型。 - • **阶数加权最短路径(OSP)**:计算两个顶点之间的最短路径长度,其中超边阶数用作距离。 - • **阶数加权最大流(OMF)**:计算两个顶点之间的最大流,其中超边阶数确定边的容量。 - • **同构识别(ISM)**:判断两个超图是否同构。 - • **超图3着色(3-CL)**:提供有效的3着色,其中每条超边包含至少两种不同的颜色。 - • **严格超环(SHC)**:搜索超图中的严格超环,其中相邻的超边恰好共享一个顶点。 - • **超图哈密尔顿路径(HHM)**:规划一条哈密尔顿路径,该路径恰好访问超图中的所有顶点一次,以给定的顶点为起点,另一个顶点为终点。 这些任务的相关**评估能力**、**难度级别**和**响应类型**详见表2的下半部分。 ### 2.4 超图表示  超图表示对于评估LVLMs在超图中的能力至关重要,因为不同的表示会引入独特的感知偏差(Wei等人,2024;Feng等人,2025b)。与仅依赖文本的LLM不同,LVLMs从视觉和文本信息的协同感知中受益。因此,在HyperGVL上测试LVLMs不仅应该考虑文本表示,还应该考虑视觉表示。
相似文章
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
基于大型视觉-语言模型利用遥感影像进行建成环境推理
本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务(如设计建议和风险识别)。研究评估了 InternVL 和 Qwen 等模型,突显了其在支持智慧城市决策和定量推理方面的潜力。
VLegal-Bench: 越南法律推理认知基础基准测试
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。