自然语言推断的多粒度推理

arXiv cs.CL 2026/06/05 04:00 论文

natural-language-inference multi-granularity reasoning hierarchical transformer attention semantic

摘要

提出了一种多粒度推理网络（MGRN），该网络显式利用层次语义特征进行自然语言推断，在多个基准测试中优于强基线模型。

arXiv:2606.05181v1 公告类型：新摘要：自然语言推断（NLI）是自然语言理解中的一项基础任务，要求判断前提和假设之间的逻辑关系。尽管基于Transformer的预训练模型取得了显著成功，但现有方法主要依赖最后一层的词元表示，这通常不足以捕获进行有效推理所需的复杂且层次化的语义交互。特别是，细粒度的词汇线索、短语组合以及高层上下文语义往往在单一表示空间中被纠缠或稀释。为克服这些局限性，我们提出了一种新颖的 \emph{Multi-Granularity Reasoning Network}（MGRN），该网络在交互推理空间中显式利用层次语义特征。所提出的框架模拟了人类语言理解的认知过程，该过程自然地从浅层词汇匹配进展到深层语义抽象和逻辑推理。通过以渐进且结构化的方式整合多粒度语义信息，MGRN能够揭示自然语言表达中隐藏的复杂语义关系。在多个公共基准上的大量实验表明，MGRN持续优于强基线模型，验证了该方法的有效性和鲁棒性。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:05

# 多粒度推理在自然语言推理中的应用
来源：https://arxiv.org/html/2606.05181
###### 摘要

自然语言推理（NLI）是自然语言理解中的一项基础任务，要求判断前提与假设之间的逻辑关系。尽管基于Transformer的预训练模型取得了显著成功，但现有方法大多仅依赖最后一层的词元表示，这往往不足以捕捉有效推理所需的复杂且层次化的语义交互。具体而言，细粒度的词汇线索、短语组合以及更高层次的上下文语义通常在单一的表示空间中被纠缠或稀释。为了解决这些局限，我们提出了一种新颖的**多粒度推理网络**（MGRN），该网络在交互式推理空间中显式地利用层次化语义特征。所提出的框架模拟了人类语言理解的认知过程，该过程自然地从浅层的词汇匹配发展到深层的语义抽象和逻辑推理。通过以渐进且结构化的方式整合多粒度的语义信息，MGRN能够揭示自然语言表达背后错综复杂的语义关系。在多个公开基准上的大量实验表明，MGRN持续优于强基线模型，验证了所提方法的有效性和鲁棒性。

## I引言

自然语言推理（NLI），也称为文本蕴含识别，是自然语言理解中的一项基础任务，要求判断前提与假设之间的逻辑关系。三种可能的关系是“蕴含”（前提逻辑上支持假设）、“矛盾”（前提与假设矛盾）或“中性”（无法建立确定关系）。作为自然语言理解的基石，NLI因其语言本身的复杂性而面临重大挑战，这包括多样化的表达、丰富的语义细微差别以及错综复杂的上下文依赖关系[2]。例如，准确辨别这些关系不仅需要词汇和句法意识，还需要常识知识和多级推理。

鉴于其显著成功，我们假设更结构化、更全面的注意力信号可以进一步增强模型理解语言和执行自然语言推理的能力。传统的注意力机制捕捉句子之间成对的词级对齐。多头注意力[42, 12, 33, 32, 42]的出现通过使模型能够联合关注来自不同表示子空间的信息，有效捕捉了各种类型的关系。在本研究中，我们基于这一想法，引入了一种新颖的交互式张量结构，以捕捉更高阶的语义，不仅包括词之间，还包括短语和更广泛的上下文元素之间。这种结构增强了模型处理复杂语言现象（如释义和词汇变化）的能力。

为了有效利用这些更丰富的交互模式，我们提出了一种新颖的**多粒度推理网络**（MGRN）。该框架专门设计用于通过渐进的分层过程聚合和推理多级语义特征，模拟了从表层理解到深层语义理解的认知进展。我们在广泛使用的标准NLI基准（SNLI 和 MultiNLI）上对MGRN进行了全面评估，并观察到相较于强竞争基线的一致且显著的改进。为了进一步评估和验证其普遍适用性，我们将MGRN应用于释义识别任务，显式地将其构建为二元NLI分类任务（将释义视为蕴含，非释义视为中性）。在Quora问题对数据集和另外七个多样化基准上的全面实验证明了所提方法的鲁棒性和有效性。

本文的主要贡献更具体地总结如下：首先，我们提出了一个强大的多粒度推理网络（MGRN），该网络通过精心设计的交互式张量结构整合了层次化语义特征，显著提高了整体推理准确性。其次，所提出的模型有效捕捉了句子对之间的高阶语义交互，远远超出了传统的对齐方法，包含了复杂的组合性和有意义的短语关系。最后，在多个广泛认可的公开数据集上进行的大量且严格的实验表明，MGRN持续且明显地优于多个竞争基线，证明了其在各种具有挑战性的NLP任务中的有效性、鲁棒性和普遍适用性。

## II相关工作

**神经语言推理** 关于NLI的早期研究主要依赖于手工特征、逻辑规则以及句法或语义解析[1]。这些方法受限于特征工程和可扩展性。大规模标注数据集（如SNLI[2]和后来的MultiNLI）的引入使得数据驱动的神经模型主导了该领域。早期的神经架构侧重于句子编码，其中每个句子被独立映射成固定长度的向量（使用CNN或RNN），然后由分类器处理[6]。为了解决这一局限，提出了基于交互的模型，以显式地在词或短语级别建模跨句对齐[7, 34, 35, 36, 37]。注意力机制[8, 38, 39, 40]通过实现句子表示之间的软对齐和比较，进一步提高了性能。后续工作探索了更深、更具表达力的架构。残差连接[3]和密集交互层实现了多步推理和迭代推理。一些方法引入了句法或语义结构，如依存树或语义图，以引导推理[1]。尽管取得了这些进展，但大多数神经NLI模型仍然严重依赖单一粒度的交互，通常聚焦于词元级别的对齐，这限制了它们捕捉高阶语义组合和抽象推理的能力。

**预训练语言模型方法** 预训练语言模型通过提供从大规模语料库中学习到的强大上下文表示，显著重塑了NLI研究。BERT[9]证明了双向自注意力和掩码语言建模目标可以产生有效迁移到NLI的表示。后续模型如RoBERTa[10]、XLNet[11,44,52,30,26,27,28,29,31]和CharBERT[17]通过改进的预训练策略、架构修改或增强的子词建模进一步提高了性能。除了标准微调之外，一些研究还探索了在预训练框架内进行显式的跨句建模。例如，联合编码和交互机制[4,12,22]整合了对齐和比较操作以增强推理能力。其他工作引入了外部语言或语义知识[15]、句法特征或手工信号[23]，以弥补数据稀疏性并提高可解释性。然而，尽管性能强劲，预训练模型通常将语言信息压缩到用于下游分类的最终层表示中。最近的分析表明，不同层编码了不同类型的语言知识，从表层特征到抽象语义。仅依赖最终层表示可能会模糊有用的中间语义信号，特别是对于需要细粒度推理或多步推理的案例。这一观察结果激励了那些显式利用多种抽象级别表示的方法。

**鲁棒性评估** 尽管现代NLI模型在标准基准上达到了高准确率，但大量研究表明它们在微小扰动、分布偏移或对抗性攻击下是脆弱的[5,46,45,43,41]。模型可能依赖于浅层启发式或虚假相关性，而非真正的语义理解，导致在具有挑战性或分布外的场景中性能下降。为了解决这些问题，提出了面向鲁棒性的评估框架，包括对抗性测试集、针对特定语言现象的压力测试以及系统性数据增强工具包（如TextFlint[24,53,51,50]）。诊断平台如Explainaboard[25,49,48,47,54,55,56]强调对不同能力进行细粒度分析。这些努力一致揭示了基准性能与真实推理能力之间存在显著差距，突显了能够整合和推理多粒度语义信息的模型的重要性。我们的工作通过显式建模层次化语义交互以提高性能和鲁棒性，与这一方向一致。

## III方法

我们将自然语言推理定义为一个分类任务，该任务预测给定句子对的关系y ∈ Y。

### III-A 输入预处理

给定两段文本S1 = {x11, x21, ..., xn1} 和 S2 = {x12, x22, ..., xm2}，我们在它们前后添加特殊标记[CLS]和[SEP]以适应BERT的输入形式，即：[CLS], x11, x21, ..., xn1, [SEP], x12, x22, ..., xm2, [SEP]。对于BERT，输入需要由三个部分的嵌入向量相加得到：

Ei = Ti + Si + Pi, (1)

其中Ti、Si、Pi分别表示第i个词的词元嵌入、分段嵌入和位置嵌入。这里，分段嵌入用于区分文本的第一段和第二段（即句子A/B标签）。

### III-B 多层Transformer表示

BERT由L层Transformer块堆叠而成，每层包含多头自注意力和前馈网络。如果H(0) = [E1, E2, ..., EN'] 表示输入嵌入序列（其中N' = n + m + 3，包括[CLS]和两个[SEP]），则第1层的输出可记为：

H(l) = TransformerBlock_l(H(l-1)), l = 1, 2, ..., L. (2)

H(l)中对应于第一段文本的张量（去除[CLS]和[SEP]）记为H1(l) ∈ R^(n×d)，对应于第二段文本的张量记为H2(l) ∈ R^(m×d)。其中d是BERT的隐藏维度。

### III-C 层间交互矩阵的构建

**逐位相乘得到的交互矩阵** 为了让模型显式捕捉第一段和第二段文本在特征上的交互，我们对同一层的两个句子表示进行逐元素相乘。具体地，对于第1层，设h1(l,i) ∈ R^d (1 ≤ i ≤ n)和h2(l,j) ∈ R^d (1 ≤ j ≤ m)，则交互张量（或交互矩阵）定义为：

M(l)_i,j = h1(l,i) ⊙ h2(l,j) ∈ R^d, ∀ i = 1,...,n, j = 1,...,m, (3)

其中“⊙”表示对应位置相乘操作。由此得到M(l) ∈ R^(n×m×d)，它显式编码了在第1层表示空间中两个句子的逐词交互信息。

### III-D 多层堆叠

通过上述公式(3)得到的每一层的交互矩阵在层维度上进行拼接或堆叠，得到完整的多层交互表示：

M̄ = [M(1); M(2); ...; M(L)] ∈ R^(n×m×d×L), (4)

其中“[·;·]”表示在新的层维度上进行堆叠。M̄聚合了从第1层到第L层的句子交互特征学习结果，能够提供更丰富、更细粒度的特征信息。

自然语言推断的多粒度推理

相似文章

生成式递归推理

GraphReAct：面向多步图推理的推理与行动

iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型

大型语言模型中的推理源于受限推理流形

大型学习模型中增强且高效的推理

提交意见反馈