专家乘积训练减少自然语言推理中的数据集伪影

arXiv cs.CL 论文

摘要

# 专家乘积训练减少自然语言推理中的数据集伪影 来源:[https://arxiv.org/html/2604.19069](https://arxiv.org/html/2604.19069) ###### 摘要 神经NLI模型过度拟合数据集伪影而非真正推理。仅假设模型在SNLI上达到57.7%,显示出强烈虚假关联,其中38.6%的基线错误源于这些伪影。作者提出专家乘积(PoE)训练,对偏见模型过度自信的样本降权。

arXiv:2604.19069v1 公告类型:新增 摘要:神经NLI模型过度拟合数据集伪影,而非真正进行推理。仅假设模型在SNLI上取得57.7%的准确率,显示出强烈的虚假关联,其中38.6%的基线错误由这些伪影造成。我们提出专家乘积(PoE)训练,对偏见模型过度自信的样本进行降权。PoE在几乎不损失准确率的情况下(89.10% vs. 89.30%)将偏见依赖降低4.71%(偏见一致性从49.85%降至45%)。消融实验发现λ=1.5在去除偏见与保持准确率之间取得最佳平衡。行为测试仍揭示在否定和数值推理方面存在问题。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 08:30

# 专家乘积训练减少自然语言推理中的数据集伪影  
来源:https://arxiv.org/html/2604.19069  
###### 摘要  

神经 NLI 模型会过拟合数据集伪影,而非真正推理。仅假设模型在 SNLI 上可达 57.7%,揭示强烈伪相关;基线错误中有 38.6% 源于这些伪影。作者提出专家乘积(PoE)训练,对偏见模型过度自信的样本降权。PoE 几乎无损准确率(89.10% vs. 89.30%),却将偏见依赖降低 4.71%(偏见一致率 49.85%→45%)。消融实验发现 λ=1.5 为去偏与准确的最佳平衡点。行为测试仍暴露否定与数字推理缺陷。  

## 1 致谢  

专家乘积(PoE)去偏方法基于 Clark 等人(2019)的工作。感谢 HuggingFace 团队的 Transformers 库以及 SNLI 数据集的创建者。所有实验均在个人计算资源上完成,未使用外部资助算力。  

## 2 引言  

自然语言推理(NLI)任务要求判断*前提*是否在逻辑上支持、矛盾或与*假设*无关。基于 BERT、ELECTRA 等预训练 Transformer 的现代 NLI 模型在基准数据集上表现亮眼,超越传统特征或浅层神经方法。然而,高基准准确率并不等同于真正的推理能力。最新研究表明,模型常利用训练数据中的*伪相关*——无需语义理解即可正确预测的模式。例如,仅假设模型不看前提就能取得意外高的准确率,暴露注释伪影。这种对伪影的依赖限制了模型在分布偏移或对抗样本下的鲁棒性。  

本文系统分析表明,SNLI 中的数据集伪影确实损害模型性能。笔者仅假设模型准确率达 57.7%(随机基线 33.3%),并发现 38.6% 的基线错误由伪影导致。该模型三步走:1. 仅输入假设文本,完全忽略前提;2. 经预训练 ELECTRA 编码;3. 对最终表示分类。  

为缓解此问题,我们采用*专家乘积(PoE)*训练:对偏见模型高置信样本动态降权,减少伪相关影响,同时保留信息样本贡献。第 4 节评估显示,PoE 在完整 SNLI 训练上取得 89.10% 准确率,较标准训练 89.30% 仅降 0.20%,却将偏见依赖降低 4.85 个百分点(偏见一致率:45.0% vs. 49.85%)。消融实验确定 λ=1.5 为最优去偏强度。定性行为测试表明,模型学会更鲁棒的前提-假设交互,但在否定、数字推理与组合语义上仍有不足。综上,预训练 Transformer 虽强,若忽视数据集伪影与训练目标,仍易过拟合表面模式;PoE 等去偏策略是向前一步,但真正的语义推理仍需持续研究。  

## 3 标准训练 vs. 去偏训练  

核心目标是将去偏模型的鲁棒性与标准训练的高准确率结合。传统 NLI 监督学习虽在基准上分数惊人,却常无法泛化到训练分布之外。去偏方法通过显式处理数据集伪影与伪相关予以纠正。  

### 3.1 仅假设基线模型  

NLI 分类将前提-假设对映射到三标签:蕴含、矛盾、中性。仅假设基线仅用假设序列,完全忽略前提。假设经预训练 Transformer 编码为表示 z,再经 softmax 分类。交叉熵损失如常。该基线揭示模型无需前提即可取得非平凡准确率。  

### 3.2 标准训练的问题  

例:前提“一个人在睡觉”,假设“没人在睡觉”。伪影模型可能被“没人”误导,直接输出矛盾,而不看前提。标准训练允许模型利用伪相关,在验证集取得高分,但所学伪影在分布偏移下失效,也无法区分正确预测来自真正推理还是伪影利用。  

### 3.3 专家乘积训练  

PoE 训练根据偏见模型置信度动态降权样本,减少伪相关影响,同时保留信息样本贡献。虽然需维护额外偏见模型,增加训练开销,但鲁棒性显著提升。  

### 3.4 讨论与启示  

标准模型优化基准准确率,常牺牲鲁棒性;去偏模型略低效,却提供更强抗伪影保证。在法律、医疗、教育等实际应用中,鲁棒性与公平性往往比 leaderboard 上的边际准确率更重要。未来可探索 PoE 与对抗数据增强、课程学习或句法建模的混合方法。  

## 4 专家乘积去偏  

PoE 核心直觉:按样本依赖真正推理 vs. 伪影的程度赋权,降权伪影重的样本,放大前提-假设交互的重要性。  

### 4.1 加权损失公式  

标准交叉熵损失对所有样本等权。PoE 为每例计算权重  

wi = 1 / (confidence(B(xi))^λ + ε)  

再归一化后加权损失。该*专家乘积去偏*不改变主模型架构,仅动态重加权。计算每权仅需偏见模型一次前向,训练时间与标准训练几乎相同(RTX 3090 上全 SNLI 约三小时)。  

### 4.2 动态加权提升鲁棒性  

λ 控制去偏强度:λ 越大,伪影样本降权越狠。我们还可根据训练动态或类别级伪影模式自适应调整 λ,得到*自适应 PoE*,理论上每批按不同推理侧重加权。权重 wi 指数级放大低置信(需推理)样本的影响。基于前人工作与初步验证,λ=1.5 被确定为最佳平衡点。

相似文章

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

EMO:用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers

EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。

输出多样性在后训练中的崩溃发生在哪里?

arXiv cs.CL

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因,分析了三个 OLMo 3 训练线(Think、Instruct、RL-Zero)在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定,并在训练期间嵌入到模型权重中,仅通过推理时调整无法解决。

EMO:通过预训练混合专家实现涌现模块化

Hugging Face Blog

Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。

AI2推出的新MoE模型:EMO

Reddit r/LocalLLaMA

AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。