预测与重建:自监督语言表示学习的联合目标
摘要
本文提出了一种混合预训练目标,结合了JEPA潜在空间预测和MLM重建,用于语言模型,显示出改进的嵌入均匀性和语义-词汇平衡。
arXiv:2606.05173v1 公告类型:新
摘要:掩码语言建模(MLM)自BERT以来一直是文本编码器的主导预训练目标,但它鼓励的表示强烈锚定于表面形式的词元标识,而非更深层的语义结构。受联合嵌入预测架构(JEPA)(LeCun, 2022)在视觉和音频领域成功的启发,我们提出了一种混合预训练目标,将JEPA风格的潜在空间预测损失与标准MLM目标结合在一个共享编码器上。一个可学习的标量参数在训练过程中持续平衡这两个目标。我们在英文维基百科上使用相同的架构和计算预算(NVIDIA H100)预训练了混合模型和纯MLM基线。通过四种池化策略在五个GLUE基准(SST-2、MRPC、MNLI、CoLA、STS-B)上的广泛表示分析发现,混合编码器产生了明显更均匀的嵌入(均匀性低于-0.16,而MLM为-0.05),在最大池化下展现出更丰富的谱几何,编码了较少的表层词汇信息,并实现了更好的语义-词汇平衡。尽管线性探测的下游准确率相似,但几何差异是一致且显著的,这表明JEPA预测目标重塑了潜在空间,而这是仅凭标准准确率指标无法捕捉的。
查看缓存全文
缓存时间: 2026/06/05 08:04
# 自监督语言表示学习的联合目标 来源:https://arxiv.org/html/2606.05173 Aimen Boukhari 阿尔及利亚国立信息学高等学院 \(ESI\),阿尔及尔 , 阿尔及利亚 mn\_boukhari@esi\.dz (mailto:[email protected]) ###### 摘要 自 BERT 以来,掩码语言建模 \(MLM\) 一直是文本编码器的主要预训练目标,但它鼓励的表征强烈锚定于表面形式的词元标识,而非更深层的语义结构。受联合嵌入预测架构 \(JEPA\) (LeCun,2022) 在视觉和音频领域的成功启发,我们提出了一种混合预训练目标,它结合了 JEPA 风格的潜在空间预测损失和基于单一共享编码器的 MLM 重建损失。一个可学习的标量 λ 在训练过程中持续平衡这两个目标。我们在英文维基百科上预训练了一个混合模型和一个纯 MLM 基线模型,使用相同的架构和计算预算 (NVIDIA H100)。通过使用四种池化策略在五个 GLUE 基准测试 (SST-2, MRPC, MNLI, CoLA, STS-B) 上进行广泛的表征分析,我们发现混合编码器产生的嵌入明显更均匀 (均匀性 ≤ -0.16,而 MLM 为 -0.05),在最大池化下展现出更丰富的谱几何结构,编码了更少的表层词汇信息,并实现了更好的语义-词汇平衡。尽管线性探测的下游准确率相似,但几何差异是一致且显著的,这表明 JEPA 预测目标以标准准确率指标无法单独捕捉的方式重塑了潜在空间。代码和检查点:https://github.com/aymen-000/predict-reconstruct-language-models ## 1 引言 自监督学习 \(SSL\) 已改变了跨模态的表征学习。在计算机视觉中,对比方法如 SimCLR (Chen 等人, 2020) 和 MoCo (He 等人, 2020),以及随后的非对比方法如 BYOL (Grill 等人, 2020) 和 VICReg (Bardes 等人, 2022),证明了无需标签即可学习强大的视觉特征。在语音和音频中,wav2vec (Baevski 等人, 2020) 和 data2vec (Baevski 等人, 2022) 展示了潜在空间中的掩码预测可以跨模态泛化。这些成功共享一个共同原则:模型不是重建像素或波形,而是学习*预测掩码或未来内容的抽象表征*。 Yann LeCun 在 (LeCun, 2022) 中将这种直觉形式化,认为基于重建的目标存在根本性局限,因为它们迫使模型将容量分配给无关的低级细节。联合嵌入预测架构 \(JEPA\) 通过让预测器网络匹配掩码区域的*目标编码器的潜在表征*来避免这一点,从未在像素或词元空间中重建词元。图像实例化 I-JEPA (Assran 等人, 2023) 在 ImageNet 上证明,与掩码自编码器相比,JEPA 预训练产生的表征在标记样本更少的情况下泛化性更好,并且学习到的特征在语义上更具结构性,正如线性探测所证明的那样。 在自然语言处理中,BERT (Devlin 等人, 2019) 将 MLM 确立为标准 SSL 目标。虽然非常有效,但 MLM 在词元空间中运行:模型必须预测掩码词元的确切身份,这激励编码器保留细粒度的词汇信息,而牺牲了更广泛的语义结构。多项分析已证实,BERT 的表征高度上下文化,但仍对表面形式的变化敏感 (Ethayarajh, 2019; Rogers 等人, 2020)。SimCSE (Gao 等人, 2021) 和 DeCLUTR (Giorgi 等人, 2021) 通过对比微调改进了 BERT 衍生句子嵌入的*均匀性*,证实了仅靠 MLM 目标并不能充分利用嵌入超球面。 因此,一个自然而然的问题是:能否将 JEPA 风格的潜在预测目标与 MLM 结合,以产生更稳健编码语义的文本编码器?最近一项独立的工作,LLM-JEPA (Huang 等人, 2025),探讨了将 JEPA 原则应用于自回归语言模型。我们的工作是互补的:我们研究了在混合与纯 MLM 目标下训练的中小型编码器的*表征几何结构*,首次使用对齐/均匀性指标、特征谱分析、有效秩以及在多个 GLUE 任务上的探测分类器进行了系统分析。 ##### 贡献。 1. 我们提出了一种混合预训练架构,通过一个带有可学习平衡权重 λ 的单一共享编码器,联合优化 JEPA 余弦预测损失和 MLM 交叉熵损失。 2. 我们首次对混合与仅 MLM 文本编码器在五个 GLUE 数据集和四种池化策略上,使用六种互补的表征指标进行了系统的几何分析。 3. 我们证明,即使在较小的预训练预算下,混合训练也能持续提高嵌入均匀性和谱丰富性,同时减少表面形式偏差。 4. 我们发布了代码和模型检查点,以促进本分析的复现和扩展。 ## 2 背景与相关工作 ### 2.1 基于重建的 SSL 及其局限性 掩码语言建模,在 BERT (Devlin 等人, 2019) 中引入,根据上下文预测掩码词元。这个目标很有效,但带有隐含的偏差:模型必须记忆词元级统计信息以恢复正确的词元身份,这鼓励表征保留词汇表面形式而非语义内容。LeCun (2022) 指出重建目标从根本上与学习抽象世界模型的目标不一致:预测输入的每个细节会将模型容量浪费在不可预测或无关的信息上。在视觉中,掩码自编码器 \(MAE\) (He 等人, 2022) 取得了强劲的结果,但需要微调才能在线性评估中匹配 JEPA 风格的方法 (Assran 等人, 2023),这与像素重建不能最优地产生语义特征的假设一致。 ### 2.2 JEPA 与潜在预测 I-JEPA (Assran 等人, 2023) 实例化了 LeCun 针对图像的 JEPA 框架:一个上下文编码器处理可见补丁,一个预测器将上下文表征映射到目标表征,而目标编码器(通过指数移动平均 EMA 更新)产生预测器必须匹配的掩码区域表征。损失在表征空间中计算,而非像素空间,从而避免了重建陷阱。V-JEPA (Bardes 等人, 2024) 将其扩展到视频,MC-JEPA (Bardes 等人, 2023) 增加了运动一致性。LLM-JEPA (Huang 等人, 2025) 最近提出将 JEPA 适配到自回归语言模型。我们的工作重点不同:我们研究编码器的表征几何结构,而非下游生成质量,并提供与受控 MLM 基线的直接比较。 ### 2.3 表征质量指标 Wang 和 Isola (2020) 引入了用于在 l2 归一化超球面上评估句子嵌入的*对齐性*和*均匀性*。Roy 和 Vetterli (2007) 将*有效秩*定义为归一化奇异值分布的香农熵的指数。Vershynin (2018) 引入了*稳定秩*作为稳健的替代方案。Garrido 等人 (2023) 使用特征谱分析来比较对比和非对比 SSL 目标。Conneau 和 Kiela (2018) 建立了用于分析句子表征中编码了哪些语言信息的探测任务框架,Ethayarajh (2019) 将上下文度分析应用于 BERT 表征。 ## 3 方法 ### 3.1 架构概述 我们的架构由三个组件组成:一个共享编码器 fθ,一个预测器 gφ,以及一个通过 EMA 更新的目标编码器 f̄θ。共享编码器处理输入词元并产生上下文化表征,用于 JEPA 和 MLM 两个目标。一个轻量级词元回归器 hψ 将编码器输出映射到 MLM 分支的词汇表 logits。整体架构如图 1 所示。 参考图示图 1:混合预测与重建架构。共享编码器产生上下文化表征,由两个分支使用:用于 JEPA 目标的预测器和用于 MLM 目标的词元回归头。目标编码器使用指数移动平均 \(EMA\) 更新,为表征预测提供稳定的目标。 ### 3.2 混合预训练目标 给定一个长度为 L 的词元序列 x,我们应用两个不同的掩码操作。 ##### 块掩码 \(JEPA 分支\)。 遵循 I-JEPA (Assran 等人, 2023),我们采样连续的块掩码。一个编码器掩码 Menc (尺度 [0.65, 0.85]) 定义了可见上下文;预测掩码 {Mpred^k}_{k=1}^2 (尺度 [0.10, 0.25]) 定义了目标区域。 ##### BERT 掩码 \(MLM 分支\)。 我们应用标准的 BERT 风格掩码,概率 p=0.15:80% 的选定位置接收 [MASK] 词元,10% 被随机词元替换,10% 保持不变。 ##### 前向传播。 z = fθ(x̃, Menc) (1) ĥ = gφ(z, Menc, Mpred) (2) h = f̄θ(x) (no grad) (3) z_full = fθ(x̃) (4) 其中 x̃ 表示 BERT 掩码后的词元序列,h 是目标表征,z_full 是用于词元回归的完整序列潜在表示。 ##### 损失函数。 L_JEPA = 1 - (1/|B|) ∑_{(i,j)∈B} cos(ĥ_ij, h_ij) (5) L_MLM = CE(h_ψ(z_full), y_mask) (6) L = λ L_JEPA + (1 - λ) L_MLM, λ = σ(w) (7) 其中 w ∈ R 是一个可学习的标量,通过端到端优化,σ 是 sigmoid 函数。 ##### EMA 更新。 θ̄ ← m θ̄ + (1 - m) θ, m ∈ [0.996, 1.0] (8) ### 3.3 词元回归器 词元回归器 hψ 直接作用于共享编码器的潜在表征: h_ψ(z) = W₂ LN(GELU(W₁ z)) (9) 其中 W₁ ∈ R^{D×D}, W₂ ∈ R^{D×V} (V = 词汇表大小),LN(·) 表示层归一化 (Ba 等人, 2016)。与标准的 MLM 头不同,hψ 通过共享编码器权重接收来自两个目标的梯度。 ### 3.4 句子池化 对于下游评估,词元表征通过对非填充位置的均值池化进行聚合: s = (∑_{t=1}^{L} 1[x_t ≠ pad] z_t) / (∑_{t=1}^{L} 1[x_t ≠ pad]) (10) 这与所有线性探测微调实验中使用的池化方法一致。 ## 4 实验设置 ### 4.1 预训练 ##### 数据。 两个模型都在英文维基百科 (WikiText) 上进行预训练。所有文本使用 bert-base-uncased 分词器(词汇表大小 30,522)进行分词,序列被截断或填充至 512 个词元。 ##### 模型架构。 该模型使用基于 transformer 的编码器,词元嵌入维度 demb=512。预测器由 6 层组成,嵌入维度 dpred=512。目标编码器与主编码器架构相同,冻结权重并通过指数移动平均更新。词元回归器头将编码器输出映射回词汇表 (vocab_size=30,522) 用于掩码语言建模。优化使用 AdamW,并带有一个可学习的标量来平衡 JEPA (余弦) 和 MLM (交叉熵) 损失。 ##### 训练。 两个模型均在一个 NVIDIA H100 GPU 上训练 3 个 epoch,批次大小为 64,使用 bfloat16 混合精度和 AdamW,余弦学习率调度(峰值 LR 5×10^{-5},权重衰减 0.05)。完整的超参数见表 1。 表 1:预训练超参数。超参数 | 值 --- | --- Epochs | 3 Batch size | 64 Peak LR | 5×10^{-5} LR schedule | cosine Warmup steps | 10 Weight decay | 0.05 Precision | bfloat16 EMA range | [0.996, 1.0] Encoder mask scale | [0.65, 0.85] Pred. mask scale | [0.10, 0.25] Num. pred. masks | 2 Min. keep tokens | 32 MLM probability | 0.15 Hardware | NVIDIA H100 ### 4.2 下游评估:线性探测 我们通过在五个 GLUE 任务 (Wang 等人, 2018) 上进行线性探测来评估冻结编码器的表征。编码器在整个过程中保持冻结;仅训练一个轻量级头。由于 GLUE 测试标签不公开,所有结果均在官方验证集上报告。未在验证集上进行超参数搜索;两个模型应用相同配置。 ##### 单句子任务 (SST-2, CoLA)
相似文章
无奖励的表征:JEPA对LLM微调的审计
本文对联合嵌入预测架构(JEPA)在自然语言到正则表达式任务上的LLM微调进行了审计,测试了二十二个辅助目标。结果表明,隐藏状态表征的改进与解码任务准确率之间仅存在弱耦合,没有辅助目标通过族系校正。
CGM-JEPA:通过预测性自监督预训练学习一致的连续血糖监测表征
介绍 CGM-JEPA,这是一种针对连续血糖监测数据的自监督预训练框架,通过掩码潜在预测和分布目标提升了跨模态及跨队列的性能。
DLLM-JEPA:面向掩码扩散语言模型的联合嵌入预测架构
介绍了DLLM-JEPA,这是一种针对掩码扩散语言模型的JEPA公式,通过扩散噪声调度从单个输入构建两个视图,相比LLM-JEPA减少了33%的训练FLOPs,并在GSM8K等任务上提升了微调性能。
在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
模型遗忘目标因语言功能不同而异
本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。