多表问答的潜在桥梁

arXiv cs.CL 论文

摘要

GRAB 使用 GNN 编码器将关系表转换为潜在标记,用于冻结的 LLM,在多表问答中取得了显著的性能提升。

arXiv:2606.28916v1 Announce Type: new 摘要:我们提出了 GRAB,一种用于表格问答的构造器-编码器-桥梁流水线。我们的方法将关系数据提升为异构图,通过消息传递进行编码,并通过一组查询条件化的潜在标记将信号传递给 LLM。这为 LLM 提供了紧凑、任务相关的结构表示以及扁平化的文本。关键的是,LLM 严格保持冻结以保留其通用推理能力;我们仅训练轻量级的图编码器和潜在桥梁(9100 万参数),使得整个流水线能够高效训练。我们的流水线在关系问答上显著提升了性能,在要求高的多表场景中提升最大,为关系深度学习与 LLM 的连接提供了一种高效、有原则的方法。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:28

# 多表问答的潜在桥梁
来源:https://arxiv.org/html/2606.28916

Simone Varriale¹,Tamara Cucumides²,Floris Geerts²,Paolo Papotti¹
¹EURECOM,²安特卫普大学

###### 摘要

我们提出 **GRAB**,一种用于表格问答的构建器-编码器-桥梁流水线。我们的方法将关系数据提升为异构图,通过消息传递进行编码,并通过一小批查询条件潜在令牌将信号传递给 LLM。这为 LLM 提供了紧凑、任务相关的结构表示以及扁平化文本。关键的是,LLM 保持严格冻结以保留其通用推理能力;我们仅训练轻量级图编码器和潜在桥梁(9100 万参数),使得整个流水线能够高效训练。我们的流水线显著提升了关系问答的性能,在要求最高的多表设置中取得了最大收益,提供了一种高效且有原则的方式,将关系深度学习与 LLM 连接起来。
代码链接 (https://anonymous.4open.science/r/Graph-Relational-Attention-Bridge)

# 多表问答的潜在桥梁

Simone Varriale¹,Tamara Cucumides²,Floris Geerts²,Paolo Papotti¹
¹EURECOM,²安特卫普大学

## 1 引言

表格问答 (TQA) 要求语言模型回答基于结构化数据的自然语言 (NL) 问题。虽然 Text-to-SQL 在查询数据库方面很流行,但 TQA 至关重要,因为 SQL 难以处理杂乱、未规范化的数据、隐式关系或表格与自由文本混合的混合上下文 (Badaro et al., 2023 (https://arxiv.org/html/2606.28916#bib.bib3))。大多数基于 LLM 的方法将表格视为文本:它们将行和列序列化为一维序列,并依赖模型恢复底层结构。这种策略很方便,但与表格的语义不符,因为行-列组织、排列不变性、分层标题和跨单元格依赖关系对意义至关重要。这种结构损失是 LLM 在表格推理上仍然脆弱的一个关键原因 (Li et al., 2025 (https://arxiv.org/html/2606.28916#bib.bib18))。

一种自然的替代方案是将表格视为一种独立的模态,并通过学习到的表示(而非仅原始序列化)将它们与 LLM 连接起来。在这项工作中,我们使用专用神经网络对表格进行编码,并将所得特征作为潜在令牌注入 LLM。我们的出发点是,TQA 的许多困难本质上是关系型的:相关证据分布在行、列和值组中,而在多表设置中,模型必须通过连接依赖关系跨链接表进行推理。因此,我们提出 **GRAB**(图-关系-注意力桥梁),一种用于基于 LLM 的*多表*问答的 GNN 表格编码器。如图 1 (https://arxiv.org/html/2606.28916#S1.F1) 所示,我们的编码器将关系数据提升为图,使用消息传递捕获结构依赖关系,并将结果压缩为一小批 LLM 消耗的潜在令牌。该表示以 NL 问题为条件,允许编码器产生与问题相关的结构,而不是输入表的单一静态摘要。

使 LLM 适应表格数据通常需要计算昂贵的全量微调或参数繁重的适配器,例如 LoRA (Hu et al., 2022 (https://arxiv.org/html/2606.28916#bib.bib15))。虽然 LoRA 冻结预训练主干并学习任务特定的低秩更新,但它会改变模型的内部表示。这可能导致适配后的推理行为在微调领域过度专门化,可能降低跨任务的分布外性能并导致灾难性遗忘 (Huang et al., 2024 (https://arxiv.org/html/2606.28916#bib.bib16))。相比之下,我们的方法保持 LLM 严格冻结,并将任务特定的学习完全隔离在我们 9100 万参数的外部模块中。这种轻量级设计允许整个流水线在单个 GPU 上高效训练,使多表推理变得普及。

![参见图注](图1:架构概览。表格通过两个并行流处理:文本序列化和三方图,该图显式捕获多表连接。一个查询条件潜在重采样器使用自然语言问题主动将 GNN 编码的图过滤为动态软令牌。这些结构令牌引导冻结的 LLM 生成最终答案。训练期间仅更新轻量级图和重采样器模块。)

我们的核心主张是,图条件潜在接口在两种极端之间提供了一种实用的中间方案:纯文本序列化(未充分利用关系结构)和符号流水线(通常会在未指定或组合性问题上牺牲 LLM 的灵活性)。通过结合关系图编码器和轻量级潜在桥梁,我们在保留结构偏差的同时,使下游模型与自回归 LLM 推理完全兼容。实验表明,这种设计在多表和结构要求高的问题上尤其有效。从概念上讲,我们的结果证实,对于 TQA,表格不应仅被视为文本,而应视为一种结构化模态,需要其自身的编码器和到 LLM 的接口。

总之,我们的主要贡献有三点。首先,我们介绍了 GRAB 的架构(第 4 节 (https://arxiv.org/html/2606.28916#S4))并对其进行了形式化(第 5 节 (https://arxiv.org/html/2606.28916#S5))。其次,我们设计了一个压力测试分类法,将结构证据定位与精确算术分离,为 LLM 提供了一种新的诊断工具(第 6 节 (https://arxiv.org/html/2606.28916#S6))。最后,我们展示了 GRAB 在 13 个单表和双表 QA 基准测试中始终优于纯序列化方法(第 7 节 (https://arxiv.org/html/2606.28916#S7))。

## 2 问题设置

我们将多表问答 (TQA) 形式化为关系数据库上的条件生成任务¹。设 \(\mathcal{T} = \{T_{1}, T_{2}, \dots, T_{n}\}\) 为一组表,其中每个表 \(T_{i}\) 由一组列 \(C_{i}\)、行 \(R_{i}\) 和单元格值 \(V_{i}\) 组成。数据库附带元数据 \(\mathcal{M}\),定义了模式,包括连接表的外键 (FK) 关系 \(\mathcal{F}\)。列具有类型 \(\tau \in \{\mathrm{cat(egorical)}, \mathrm{num(erical)}, \mathrm{text}\}\)。给定自然语言问题 \(Q\) 和关系上下文 \((\mathcal{T}, \mathcal{M})\),目标是生成目标答案 \(A\),该答案可以是自由形式生成文本、抽取式片段或数值聚合。在标准设置中,LLM 要么在零/少样本设置(即冻结)中使用,要么经过训练以最大化正确答案的概率 \(P(A \mid Q, \mathcal{T}, \mathcal{M})\)。通常,输入表被展平为文本序列 \(S_{\text{sl table}}\),LLM 隐式重建行-列对齐和跨表连接 (Badaro et al., 2023 (https://arxiv.org/html/2606.28916#bib.bib3))。然而,表格数据表现出独特的语义属性,例如行的排列不变性和严格的分层标题结构,这些属性会因序列化而扭曲甚至丢失。

¹所提出的解决方案也适用于其他任务,例如表格事实核查。我们在附录 A (https://arxiv.org/html/2606.28916#A1) 中报告了这些结果。

## 3 相关工作

**用于表格问答的 LLM。** 早期的 TQA 方法依赖于在展平表格数据上预训练的编码器专属模型 (Herzig et al., 2020 (https://arxiv.org/html/2606.28916#bib.bib13); Liu et al., 2022a (https://arxiv.org/html/2606.28916#bib.bib20))。其他模型通过专门的注意力偏置来捕获行-列对齐并保持排列不变性,从而减轻序列化造成的结构损失 (Yang et al., 2022 (https://arxiv.org/html/2606.28916#bib.bib34)),但注入这些结构偏置需要对 LLM 进行重训练。事实上,随着 LLM 的出现,范式转向了文本序列化 (Xie et al., 2022 (https://arxiv.org/html/2606.28916#bib.bib31)),其中表格被转换为(Markdown 或 HTML)序列,并通过标准自回归生成进行处理 (Zhang et al., 2024 (https://arxiv.org/html/2606.28916#bib.bib36))。然而,当前的纯 LLM TQA 策略在序列化多个表格时会遭遇上下文窗口碎片化,丢失结构连贯性 (Contalbo et al., 2025 (https://arxiv.org/html/2606.28916#bib.bib9); Chen et al., 2024 (https://arxiv.org/html/2606.28916#bib.bib6))。最近像 TAMO (Li et al., 2025 (https://arxiv.org/html/2606.28916#bib.bib18)) 这样的模型将超图编码的表格注入为软令牌。TAMO 在单元格出现位置上构建超图:每个单元格是一个原始节点,而行、列和整个表充当超边。相比之下,GRAB 将列类内的重复值规范化,并将外键链接的列出现位置合并到共享类中。因此,相等模式和连接键成为显式的图连通性,而不是隐式的文本或嵌入级巧合。此外,TAMO 的编码是与查询无关的,而我们的潜在桥梁以 NL 问题为条件。

**关系数据的图学习。** 表格 ML 主要由基于树的模型 (Chen and Guestrin, 2016 (https://arxiv.org/html/2606.28916#bib.bib7)) 和多层感知器主导,它们将行视为独立同分布样本。表格基础模型 (Hollmann et al., 2025 (https://arxiv.org/html/2606.28916#bib.bib14); Chang et al., 2025 (https://arxiv.org/html/2606.28916#bib.bib5)) 引入了跨行注意力,但设计用于行级预测。对于 TQA,我们认为关系数据库过于密集,无法无损地压缩为静态令牌。相反,关系深度学习 (Robinson et al., 2024 (https://arxiv.org/html/2606.28916#bib.bib28)) 显式地将多表数据库建模为异构图,使用消息传递捕获外键链接。虽然这些模型在数据库上的节点分类方面表现出色,但它们很少被集成到 TQA 的 LLM 流水线中。我们的工作通过使用图构建器在推理前编码表格数据来弥合这一差距。

**软令牌与多模态。** 参数高效微调方法 (Li and Liang, 2021 (https://arxiv.org/html/2606.28916#bib.bib19); Liu et al., 2022b (https://arxiv.org/html/2606.28916#bib.bib21)) 引入了“软令牌”:连续的、可学习的提示向量,它们引导冻结的 LLM,而无需更新其权重。这种范式已被用于多模态桥接,其中模型使用潜在重采样器将来自视觉/音频编码器的连续信号压缩为少量软前缀令牌 (Alayrac et al., 2022 (https://arxiv.org/html/2606.28916#bib.bib2); Li et al., 2023 (https://arxiv.org/html/2606.28916#bib.bib17))。我们是第一个使用查询条件潜在重采样器压缩*关系结构*的。我们的潜在令牌不是充当通用摘要,而是充当一个学习到的结构检索桥梁(参见附录 I (https://arxiv.org/html/2606.28916#A9),表 15 (https://arxiv.org/html/2606.28916#A9.T15) 进行特征比较)。

## 4 方法

如图 1 (https://arxiv.org/html/2606.28916#S1.F1) 所示,我们不只依赖 \(S_{\text{sl table}}\),而是定义了一个**图构建器** \(\gamma\),将关系上下文提升为显式的异构图 \(\mathcal{G} = \gamma(\mathcal{T}, \mathcal{F})\)。在该图中,行、列类和值组被表示为类型化节点,外键元数据引入共享的列类。一个图编码器处理 \(\mathcal{G}\) 以捕获行-列-值依赖关系和跨表连通性。为了与 LLM 接口,我们定义了一个查询条件潜在桥梁,将编码后的图投影为一个固定长度的 \(K\) 个软令牌序列,记为 \(Z = \{z_1, \dots, z_K\}\)。然后 LLM 从文本提示和我们的结构前缀生成答案。在此过程中,LLM 权重保持冻结;仅更新图编码器和桥梁。

**关系图构建器。** 直观上,我们的构建器将关系表转化为一个图,其中行、列和实际的单元格值都被视为单独的节点。边的绘制仅基于包含关系:行连接到它所包含的值,列连接到它可以容纳的值。这自然迫使重复值和外键连接成为图中共享的连接点(枢纽)。图构建器 \(\gamma\) 是一个固定的、确定性的处理映射。它在任何神经消息传递发生之前暴露行-列-值关联和跨表连接结构。我们在附录 C (https://arxiv.org/html/2606.28916#A3) 中提供更多细节。

让我们考虑 \(\mathcal{M}\) 中的外键元数据,即 \(\mathcal{F} = \{((i,c), (j,d)) \mid \text{列 $c$ 的表 $T_i$ 连接到列 $d$ 的表 $T_j$}\}\)。构建器将关系输入映射为一个三方图 \(\gamma(\mathcal{T}, \mathcal{F}) = (\mathcal{G}, H^{(0)})\),其中 \(\mathcal{G} = (\mathcal{V}_R \cup \mathcal{V}_C \cup \mathcal{V}_V, \mathcal{E}_{RV} \cup \mathcal{E}_{CV})\),这里 \(\mathcal{V}_R\) 是行节点,\(\mathcal{V}_C\) 是列类节点,\(\mathcal{V}_V\) 是值组节点,\(\mathcal{E}_{RV}\) 是行-值关联边,\(\mathcal{E}_{CV}\) 是列-值关联边。此外,\(H^{(0)}\) 表示初始的行、列和值节点特征 \(H_R^{(0)}\)、\(H_C^{(0)}\) 和 \(H_V^{(0)}\)。

我们构建的一个**显著特征**是,由 \(\mathcal{F}\) 中的外键对连接的列由一个单一的列类节点表示。这直接将连接嵌入到图中,并使相关表对后续的消息传递可访问。例如,在图 1 (https://arxiv.org/html/2606.28916#S1.F1) 中,\(T_1\) 和 \(T_2\) 中的 city 列映射到 \(\mathcal{G}\) 中的一个单一节点。边以自然方式定义:行-值边记录每个行中出现的值组,列-值边记录每个列类所属的值组。对于值节点,我们取经过标准化映射后的值。这里,类别型和文本值在其列类内被归一化和规范化,而数值被映射到分位数桶。对于初始特征,我们使用固定的令牌级文本编码器,并通过均值池化将其扩展到字符串。图隐藏维度继承自用于初始化节点的嵌入模型。在我们的实现中,行和列节点从相同的文本嵌入模型初始化,而值节点直接在相同的隐藏维度中构建。因此,所有节点类型已经处于一个公共的嵌入空间,并且在初始化时不应用额外的投影。列节点从对应列出现的头部嵌入初始化。当列节点代表由外键链接标识的多个列时,我们对其头部嵌入进行平均。值节点不是从原始单元格值文本初始化的。相反,我们使用一个确定性映射:对于数值,使用均匀分位数分桶;对于类别值,使用词汇表内的词元 ID;对于自由文本,使用固定编码器,并进行均值池化。

相似文章

基于门控关联检索的通用三重潜在压缩

arXiv cs.CL

本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。

FinRAG-12B:一种经过生产验证的银行业有据可依问答方案

arXiv cs.AI

FinRAG-12B 是一款针对银行业检索增强生成(RAG)优化的 120 亿参数大语言模型,具备统一训练框架,可提升回答质量、引用依据的可靠性以及校准后的拒绝回答能力。该模型在引用依据方面优于 GPT-4.1,并已部署于 40 多家金融机构,在成本和延迟方面具有显著优势。

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。