预测与重建：自监督语言表示学习的联合目标

arXiv cs.CL 2026/06/05 04:00 论文

摘要

本文提出了一种混合预训练目标，结合了JEPA潜在空间预测和MLM重建，用于语言模型，显示出改进的嵌入均匀性和语义-词汇平衡。

arXiv:2606.05173v1 公告类型：新摘要：掩码语言建模（MLM）自BERT以来一直是文本编码器的主导预训练目标，但它鼓励的表示强烈锚定于表面形式的词元标识，而非更深层的语义结构。受联合嵌入预测架构（JEPA）（LeCun, 2022）在视觉和音频领域成功的启发，我们提出了一种混合预训练目标，将JEPA风格的潜在空间预测损失与标准MLM目标结合在一个共享编码器上。一个可学习的标量参数在训练过程中持续平衡这两个目标。我们在英文维基百科上使用相同的架构和计算预算（NVIDIA H100）预训练了混合模型和纯MLM基线。通过四种池化策略在五个GLUE基准（SST-2、MRPC、MNLI、CoLA、STS-B）上的广泛表示分析发现，混合编码器产生了明显更均匀的嵌入（均匀性低于-0.16，而MLM为-0.05），在最大池化下展现出更丰富的谱几何，编码了较少的表层词汇信息，并实现了更好的语义-词汇平衡。尽管线性探测的下游准确率相似，但几何差异是一致且显著的，这表明JEPA预测目标重塑了潜在空间，而这是仅凭标准准确率指标无法捕捉的。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:04

# 自监督语言表示学习的联合目标
来源：https://arxiv.org/html/2606.05173
Aimen Boukhari 阿尔及利亚国立信息学高等学院 \(ESI\)，阿尔及尔 , 阿尔及利亚 mn\_boukhari@esi\.dz (mailto:[email protected])

###### 摘要

自 BERT 以来，掩码语言建模 \(MLM\) 一直是文本编码器的主要预训练目标，但它鼓励的表征强烈锚定于表面形式的词元标识，而非更深层的语义结构。受联合嵌入预测架构 \(JEPA\) (LeCun,2022) 在视觉和音频领域的成功启发，我们提出了一种混合预训练目标，它结合了 JEPA 风格的潜在空间预测损失和基于单一共享编码器的 MLM 重建损失。一个可学习的标量 λ 在训练过程中持续平衡这两个目标。我们在英文维基百科上预训练了一个混合模型和一个纯 MLM 基线模型，使用相同的架构和计算预算 (NVIDIA H100)。通过使用四种池化策略在五个 GLUE 基准测试 (SST-2, MRPC, MNLI, CoLA, STS-B) 上进行广泛的表征分析，我们发现混合编码器产生的嵌入明显更均匀 (均匀性 ≤ -0.16，而 MLM 为 -0.05)，在最大池化下展现出更丰富的谱几何结构，编码了更少的表层词汇信息，并实现了更好的语义-词汇平衡。尽管线性探测的下游准确率相似，但几何差异是一致且显著的，这表明 JEPA 预测目标以标准准确率指标无法单独捕捉的方式重塑了潜在空间。代码和检查点：https://github.com/aymen-000/predict-reconstruct-language-models

## 1 引言

自监督学习 \(SSL\) 已改变了跨模态的表征学习。在计算机视觉中，对比方法如 SimCLR (Chen 等人, 2020) 和 MoCo (He 等人, 2020)，以及随后的非对比方法如 BYOL (Grill 等人, 2020) 和 VICReg (Bardes 等人, 2022)，证明了无需标签即可学习强大的视觉特征。在语音和音频中，wav2vec (Baevski 等人, 2020) 和 data2vec (Baevski 等人, 2022) 展示了潜在空间中的掩码预测可以跨模态泛化。这些成功共享一个共同原则：模型不是重建像素或波形，而是学习*预测掩码或未来内容的抽象表征*。

Yann LeCun 在 (LeCun, 2022) 中将这种直觉形式化，认为基于重建的目标存在根本性局限，因为它们迫使模型将容量分配给无关的低级细节。联合嵌入预测架构 \(JEPA\) 通过让预测器网络匹配掩码区域的*目标编码器的潜在表征*来避免这一点，从未在像素或词元空间中重建词元。图像实例化 I-JEPA (Assran 等人, 2023) 在 ImageNet 上证明，与掩码自编码器相比，JEPA 预训练产生的表征在标记样本更少的情况下泛化性更好，并且学习到的特征在语义上更具结构性，正如线性探测所证明的那样。

在自然语言处理中，BERT (Devlin 等人, 2019) 将 MLM 确立为标准 SSL 目标。虽然非常有效，但 MLM 在词元空间中运行：模型必须预测掩码词元的确切身份，这激励编码器保留细粒度的词汇信息，而牺牲了更广泛的语义结构。多项分析已证实，BERT 的表征高度上下文化，但仍对表面形式的变化敏感 (Ethayarajh, 2019; Rogers 等人, 2020)。SimCSE (Gao 等人, 2021) 和 DeCLUTR (Giorgi 等人, 2021) 通过对比微调改进了 BERT 衍生句子嵌入的*均匀性*，证实了仅靠 MLM 目标并不能充分利用嵌入超球面。

因此，一个自然而然的问题是：能否将 JEPA 风格的潜在预测目标与 MLM 结合，以产生更稳健编码语义的文本编码器？最近一项独立的工作，LLM-JEPA (Huang 等人, 2025)，探讨了将 JEPA 原则应用于自回归语言模型。我们的工作是互补的：我们研究了在混合与纯 MLM 目标下训练的中小型编码器的*表征几何结构*，首次使用对齐/均匀性指标、特征谱分析、有效秩以及在多个 GLUE 任务上的探测分类器进行了系统分析。

##### 贡献。

1.  我们提出了一种混合预训练架构，通过一个带有可学习平衡权重 λ 的单一共享编码器，联合优化 JEPA 余弦预测损失和 MLM 交叉熵损失。
2.  我们首次对混合与仅 MLM 文本编码器在五个 GLUE 数据集和四种池化策略上，使用六种互补的表征指标进行了系统的几何分析。
3.  我们证明，即使在较小的预训练预算下，混合训练也能持续提高嵌入均匀性和谱丰富性，同时减少表面形式偏差。
4.  我们发布了代码和模型检查点，以促进本分析的复现和扩展。

## 2 背景与相关工作

### 2.1 基于重建的 SSL 及其局限性

掩码语言建模，在 BERT (Devlin 等人, 2019) 中引入，根据上下文预测掩码词元。这个目标很有效，但带有隐含的偏差：模型必须记忆词元级统计信息以恢复正确的词元身份，这鼓励表征保留词汇表面形式而非语义内容。LeCun (2022) 指出重建目标从根本上与学习抽象世界模型的目标不一致：预测输入的每个细节会将模型容量浪费在不可预测或无关的信息上。在视觉中，掩码自编码器 \(MAE\) (He 等人, 2022) 取得了强劲的结果，但需要微调才能在线性评估中匹配 JEPA 风格的方法 (Assran 等人, 2023)，这与像素重建不能最优地产生语义特征的假设一致。

### 2.2 JEPA 与潜在预测

I-JEPA (Assran 等人, 2023) 实例化了 LeCun 针对图像的 JEPA 框架：一个上下文编码器处理可见补丁，一个预测器将上下文表征映射到目标表征，而目标编码器（通过指数移动平均 EMA 更新）产生预测器必须匹配的掩码区域表征。损失在表征空间中计算，而非像素空间，从而避免了重建陷阱。V-JEPA (Bardes 等人, 2024) 将其扩展到视频，MC-JEPA (Bardes 等人, 2023) 增加了运动一致性。LLM-JEPA (Huang 等人, 2025) 最近提出将 JEPA 适配到自回归语言模型。我们的工作重点不同：我们研究编码器的表征几何结构，而非下游生成质量，并提供与受控 MLM 基线的直接比较。

### 2.3 表征质量指标

Wang 和 Isola (2020) 引入了用于在 l2 归一化超球面上评估句子嵌入的*对齐性*和*均匀性*。Roy 和 Vetterli (2007) 将*有效秩*定义为归一化奇异值分布的香农熵的指数。Vershynin (2018) 引入了*稳定秩*作为稳健的替代方案。Garrido 等人 (2023) 使用特征谱分析来比较对比和非对比 SSL 目标。Conneau 和 Kiela (2018) 建立了用于分析句子表征中编码了哪些语言信息的探测任务框架，Ethayarajh (2019) 将上下文度分析应用于 BERT 表征。

## 3 方法

### 3.1 架构概述

我们的架构由三个组件组成：一个共享编码器 fθ，一个预测器 gφ，以及一个通过 EMA 更新的目标编码器 f̄θ。共享编码器处理输入词元并产生上下文化表征，用于 JEPA 和 MLM 两个目标。一个轻量级词元回归器 hψ 将编码器输出映射到 MLM 分支的词汇表 logits。整体架构如图 1 所示。

参考图示图 1：混合预测与重建架构。共享编码器产生上下文化表征，由两个分支使用：用于 JEPA 目标的预测器和用于 MLM 目标的词元回归头。目标编码器使用指数移动平均 \(EMA\) 更新，为表征预测提供稳定的目标。
### 3.2 混合预训练目标

给定一个长度为 L 的词元序列 x，我们应用两个不同的掩码操作。

##### 块掩码 \(JEPA 分支\)。

遵循 I-JEPA (Assran 等人, 2023)，我们采样连续的块掩码。一个编码器掩码 Menc (尺度 [0.65, 0.85]) 定义了可见上下文；预测掩码 {Mpred^k}_{k=1}^2 (尺度 [0.10, 0.25]) 定义了目标区域。

##### BERT 掩码 \(MLM 分支\)。

我们应用标准的 BERT 风格掩码，概率 p=0.15：80% 的选定位置接收 [MASK] 词元，10% 被随机词元替换，10% 保持不变。

##### 前向传播。

z = fθ(x̃, Menc)   (1)
ĥ = gφ(z, Menc, Mpred)   (2)
h = f̄θ(x) (no grad)   (3)
z_full = fθ(x̃)   (4)
其中 x̃ 表示 BERT 掩码后的词元序列，h 是目标表征，z_full 是用于词元回归的完整序列潜在表示。

##### 损失函数。

L_JEPA = 1 - (1/|B|) ∑_{(i,j)∈B} cos(ĥ_ij, h_ij)   (5)
L_MLM = CE(h_ψ(z_full), y_mask)   (6)
L = λ L_JEPA + (1 - λ) L_MLM, λ = σ(w)   (7)
其中 w ∈ R 是一个可学习的标量，通过端到端优化，σ 是 sigmoid 函数。

##### EMA 更新。

θ̄ ← m θ̄ + (1 - m) θ, m ∈ [0.996, 1.0]   (8)

### 3.3 词元回归器

词元回归器 hψ 直接作用于共享编码器的潜在表征：

h_ψ(z) = W₂ LN(GELU(W₁ z))   (9)
其中 W₁ ∈ R^{D×D}, W₂ ∈ R^{D×V} (V = 词汇表大小)，LN(·) 表示层归一化 (Ba 等人, 2016)。与标准的 MLM 头不同，hψ 通过共享编码器权重接收来自两个目标的梯度。

### 3.4 句子池化

对于下游评估，词元表征通过对非填充位置的均值池化进行聚合：

s = (∑_{t=1}^{L} 1[x_t ≠ pad] z_t) / (∑_{t=1}^{L} 1[x_t ≠ pad])   (10)
这与所有线性探测微调实验中使用的池化方法一致。

## 4 实验设置

### 4.1 预训练

##### 数据。

两个模型都在英文维基百科 (WikiText) 上进行预训练。所有文本使用 bert-base-uncased 分词器（词汇表大小 30,522）进行分词，序列被截断或填充至 512 个词元。

##### 模型架构。

该模型使用基于 transformer 的编码器，词元嵌入维度 demb=512。预测器由 6 层组成，嵌入维度 dpred=512。目标编码器与主编码器架构相同，冻结权重并通过指数移动平均更新。词元回归器头将编码器输出映射回词汇表 (vocab_size=30,522) 用于掩码语言建模。优化使用 AdamW，并带有一个可学习的标量来平衡 JEPA (余弦) 和 MLM (交叉熵) 损失。

##### 训练。

两个模型均在一个 NVIDIA H100 GPU 上训练 3 个 epoch，批次大小为 64，使用 bfloat16 混合精度和 AdamW，余弦学习率调度（峰值 LR 5×10^{-5}，权重衰减 0.05）。完整的超参数见表 1。

表 1：预训练超参数。超参数 | 值
--- | ---
Epochs | 3
Batch size | 64
Peak LR | 5×10^{-5}
LR schedule | cosine
Warmup steps | 10
Weight decay | 0.05
Precision | bfloat16
EMA range | [0.996, 1.0]
Encoder mask scale | [0.65, 0.85]
Pred. mask scale | [0.10, 0.25]
Num. pred. masks | 2
Min. keep tokens | 32
MLM probability | 0.15
Hardware | NVIDIA H100

### 4.2 下游评估：线性探测

我们通过在五个 GLUE 任务 (Wang 等人, 2018) 上进行线性探测来评估冻结编码器的表征。编码器在整个过程中保持冻结；仅训练一个轻量级头。由于 GLUE 测试标签不公开，所有结果均在官方验证集上报告。未在验证集上进行超参数搜索；两个模型应用相同配置。

##### 单句子任务 (SST-2, CoLA)

预测与重建：自监督语言表示学习的联合目标

相似文章

无奖励的表征：JEPA对LLM微调的审计

注解版JEPA

CGM-JEPA：通过预测性自监督预训练学习一致的连续血糖监测表征

AV-JEPA: 将LeJEPA扩展到音视频自监督学习

DLLM-JEPA：面向掩码扩散语言模型的联合嵌入预测架构

提交意见反馈