专家乘积训练减少自然语言推理中的数据集伪影

arXiv cs.CL 2026/04/22 04:00 论文

摘要

# 专家乘积训练减少自然语言推理中的数据集伪影来源：[https://arxiv.org/html/2604.19069](https://arxiv.org/html/2604.19069) ###### 摘要神经NLI模型过度拟合数据集伪影而非真正推理。仅假设模型在SNLI上达到57.7%，显示出强烈虚假关联，其中38.6%的基线错误源于这些伪影。作者提出专家乘积（PoE）训练，对偏见模型过度自信的样本降权。

arXiv:2604.19069v1 公告类型：新增摘要：神经NLI模型过度拟合数据集伪影，而非真正进行推理。仅假设模型在SNLI上取得57.7%的准确率，显示出强烈的虚假关联，其中38.6%的基线错误由这些伪影造成。我们提出专家乘积（PoE）训练，对偏见模型过度自信的样本进行降权。PoE在几乎不损失准确率的情况下（89.10% vs. 89.30%）将偏见依赖降低4.71%（偏见一致性从49.85%降至45%）。消融实验发现λ=1.5在去除偏见与保持准确率之间取得最佳平衡。行为测试仍揭示在否定和数值推理方面存在问题。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:30

# 专家乘积训练减少自然语言推理中的数据集伪影  
来源：https://arxiv.org/html/2604.19069  
###### 摘要  

神经 NLI 模型会过拟合数据集伪影，而非真正推理。仅假设模型在 SNLI 上可达 57.7%，揭示强烈伪相关；基线错误中有 38.6% 源于这些伪影。作者提出专家乘积（PoE）训练，对偏见模型过度自信的样本降权。PoE 几乎无损准确率（89.10% vs. 89.30%），却将偏见依赖降低 4.71%（偏见一致率 49.85%→45%）。消融实验发现 λ=1.5 为去偏与准确的最佳平衡点。行为测试仍暴露否定与数字推理缺陷。  

## 1 致谢  

专家乘积（PoE）去偏方法基于 Clark 等人（2019）的工作。感谢 HuggingFace 团队的 Transformers 库以及 SNLI 数据集的创建者。所有实验均在个人计算资源上完成，未使用外部资助算力。  

## 2 引言  

自然语言推理（NLI）任务要求判断*前提*是否在逻辑上支持、矛盾或与*假设*无关。基于 BERT、ELECTRA 等预训练 Transformer 的现代 NLI 模型在基准数据集上表现亮眼，超越传统特征或浅层神经方法。然而，高基准准确率并不等同于真正的推理能力。最新研究表明，模型常利用训练数据中的*伪相关*——无需语义理解即可正确预测的模式。例如，仅假设模型不看前提就能取得意外高的准确率，暴露注释伪影。这种对伪影的依赖限制了模型在分布偏移或对抗样本下的鲁棒性。  

本文系统分析表明，SNLI 中的数据集伪影确实损害模型性能。笔者仅假设模型准确率达 57.7%（随机基线 33.3%），并发现 38.6% 的基线错误由伪影导致。该模型三步走：1. 仅输入假设文本，完全忽略前提；2. 经预训练 ELECTRA 编码；3. 对最终表示分类。  

为缓解此问题，我们采用*专家乘积（PoE）*训练：对偏见模型高置信样本动态降权，减少伪相关影响，同时保留信息样本贡献。第 4 节评估显示，PoE 在完整 SNLI 训练上取得 89.10% 准确率，较标准训练 89.30% 仅降 0.20%，却将偏见依赖降低 4.85 个百分点（偏见一致率：45.0% vs. 49.85%）。消融实验确定 λ=1.5 为最优去偏强度。定性行为测试表明，模型学会更鲁棒的前提-假设交互，但在否定、数字推理与组合语义上仍有不足。综上，预训练 Transformer 虽强，若忽视数据集伪影与训练目标，仍易过拟合表面模式；PoE 等去偏策略是向前一步，但真正的语义推理仍需持续研究。  

## 3 标准训练 vs. 去偏训练  

核心目标是将去偏模型的鲁棒性与标准训练的高准确率结合。传统 NLI 监督学习虽在基准上分数惊人，却常无法泛化到训练分布之外。去偏方法通过显式处理数据集伪影与伪相关予以纠正。  

### 3.1 仅假设基线模型  

NLI 分类将前提-假设对映射到三标签：蕴含、矛盾、中性。仅假设基线仅用假设序列，完全忽略前提。假设经预训练 Transformer 编码为表示 z，再经 softmax 分类。交叉熵损失如常。该基线揭示模型无需前提即可取得非平凡准确率。  

### 3.2 标准训练的问题  

例：前提“一个人在睡觉”，假设“没人在睡觉”。伪影模型可能被“没人”误导，直接输出矛盾，而不看前提。标准训练允许模型利用伪相关，在验证集取得高分，但所学伪影在分布偏移下失效，也无法区分正确预测来自真正推理还是伪影利用。  

### 3.3 专家乘积训练  

PoE 训练根据偏见模型置信度动态降权样本，减少伪相关影响，同时保留信息样本贡献。虽然需维护额外偏见模型，增加训练开销，但鲁棒性显著提升。  

### 3.4 讨论与启示  

标准模型优化基准准确率，常牺牲鲁棒性；去偏模型略低效，却提供更强抗伪影保证。在法律、医疗、教育等实际应用中，鲁棒性与公平性往往比 leaderboard 上的边际准确率更重要。未来可探索 PoE 与对抗数据增强、课程学习或句法建模的混合方法。  

## 4 专家乘积去偏  

PoE 核心直觉：按样本依赖真正推理 vs. 伪影的程度赋权，降权伪影重的样本，放大前提-假设交互的重要性。  

### 4.1 加权损失公式  

标准交叉熵损失对所有样本等权。PoE 为每例计算权重  

wi = 1 / (confidence(B(xi))^λ + ε)  

再归一化后加权损失。该*专家乘积去偏*不改变主模型架构，仅动态重加权。计算每权仅需偏见模型一次前向，训练时间与标准训练几乎相同（RTX 3090 上全 SNLI 约三小时）。  

### 4.2 动态加权提升鲁棒性  

λ 控制去偏强度：λ 越大，伪影样本降权越狠。我们还可根据训练动态或类别级伪影模式自适应调整 λ，得到*自适应 PoE*，理论上每批按不同推理侧重加权。权重 wi 指数级放大低置信（需推理）样本的影响。基于前人工作与初步验证，λ=1.5 被确定为最佳平衡点。

专家乘积训练减少自然语言推理中的数据集伪影

相似文章

Transformer 中的专家混合模型 (MoEs)

EMO：用于涌现模块化的专家混合模型预训练

输出多样性在后训练中的崩溃发生在哪里？

EMO：通过预训练混合专家实现涌现模块化

AI2推出的新MoE模型：EMO

提交意见反馈