利用上下文对齐对比学习与岭回归集成提升词汇难度预测
摘要
本文引入了上下文对齐对比回归(Context-Aligned Contrastive Regression),通过解决语言学习数据集中的跨语言对齐和等级结构挑战,来提升词汇难度预测的效果。
arXiv:2605.08950v1 公告类型:新论文
摘要:词汇难度预测是语言学习和可读性评估中的一个基本问题,要求模型能够针对不同母语(L1)背景估算词汇难度。然而,现有的方法依赖于仅使用标量监督的回归训练,没有明确地构建表示空间结构,限制了其捕捉跨语言对齐和等级难度的能力。为缓解这些问题,我们提出了上下文对齐对比回归方法,该方法将岭回归(Ridge regression)集成与两个互补的目标相结合,即跨视角上下文(Cross-View Context)和等级软对比学习(Ordinal Soft Contrastive Learning)。在三个 L1 数据集上的实验表明:(i)对比学习目标改善了跨语言表示的对齐,同时保留了特定语言的细微差别;(ii)学习到的表示捕捉了词汇难度的等级结构;(iii)集成有效地缓解了单个模型的系统性偏差,从而在不同难度水平上实现了更稳定的性能。
查看缓存全文
缓存时间: 2026/05/12 07:07
# 通过上下文对齐对比学习和岭集成改进词汇难度预测
来源: https://arxiv.org/html/2605.08950
Wicaksono Leksono Muhamad†,1, Joanito Agili Lopo†,1, Tsamarah Rana Nugraha♡,1,2, Ahmad Cahyono Adi♡,1,3, Muhammad Oriza Nurfajri3 1Mantera Studio2曼彻斯特大学3加查马达大学 \{wcksnlxn,amalopo99,ahmadseverine83\}@gmail\.com tsamarah\.nugraha@postgrad\.manchester\.ac\.uk oriza\_nurfajri@mail\.ugm\.ac\.id
###### 摘要
词汇难度预测是语言学习和可读性评估中的一个基本问题,要求模型估计不同母语(L1)背景下的单词难度。然而,现有方法依赖于仅通过标量监督进行回归训练,这并没有明确构建表示空间的结构,限制了其捕捉跨语言对齐和等级难度的能力。为了解决这些问题,我们提出了**上下文对齐对比回归**(Context-Aligned Contrastive Regression),它将岭回归集成与两个互补的目标相结合,即跨视图上下文(Cross-View Context)和序数软对比学习(Ordinal Soft Contrastive Learning)。在三个L1数据集上的实验表明,(i)对比目标改善了跨语言表示对齐,同时保留了特定语言的细微差别,(ii)学习到的表示捕捉了词汇难度的等级结构,(iii)集成有效地减轻了单个模型的系统性偏差,从而在各个难度水平上实现了更稳定的性能。111https://github.com/airlanggawicaksono/BEA2026TOEBM
通过上下文对齐对比学习和岭集成改进词汇难度预测
††脚注文本:†主要贡献者。††脚注文本:♡主要贡献者。## 1 引言
词汇是英语作为外语能力的一个核心组成部分,支持阅读、听力、写作和口语技能的发展Alshumrani \(2024 (https://arxiv.org/html/2605.08950#bib.bib2)\)。由于学习者的 proficiency 水平影响词汇的习得Bao and Peng \(2024 (https://arxiv.org/html/2605.08950#bib.bib3)\),估计词汇难度是开发适合水平的学习材料和有效评估工具的重要一步Goyibovaet al.\(2025 (https://arxiv.org/html/2605.08950#bib.bib1)\)
prior work 探索了相关任务,如复杂词识别、词汇难度预测和词汇简化Paetzold and Specia \(2016b (https://arxiv.org/html/2605.08950#bib.bib16)\); Yimamet al.\(2018 (https://arxiv.org/html/2605.08950#bib.bib19)\); Shardlowet al.\(2021 (https://arxiv.org/html/2605.08950#bib.bib15)\)。然而,这些工作并未针对英语学习者量身定制,且忽略了学习者的母语(L1)如何使英语词汇变得更容易或更困难。这一局限性至关重要,因为词汇知识本质上是多层次的,涉及多个相互关联的组件,必须掌握这些组件才能有效使用语言Schmitt \(2010 (https://arxiv.org/html/2605.08950#bib.bib4)\)。
在相互关联的组件中,L1干扰在包括语法、句法、音韵和词汇在内的各个语言层次上发挥着核心作用,导致不同L1背景的学习者在感知和处理单词方面存在系统性差异Alisoy \(2024 (https://arxiv.org/html/2605.08950#bib.bib5)\)。因此,词汇难度并不是单词的固有属性,而是一种随L1背景变化的关系现象,这促使我们需要进行感知L1的建模Skidmoreet al.\(2025 (https://arxiv.org/html/2605.08950#bib.bib17)\)。
然而,仅靠学习者特定因素是不够的。区分发音相似单词的能力并不能保证成功的习得或理解Pajaket al.\(2016 (https://arxiv.org/html/2605.08950#bib.bib6)\)。因此,词汇难度不能仅从形式层面的属性可靠地推断出来。相反,难度是由单词在上下文中被遇到和解释的方式塑造的。心理语言学证据表明,上下文线索引导意义解释和理解Gartenet al.\(2019 (https://arxiv.org/html/2605.08950#bib.bib7)\)。因此,有效的词汇难度建模应同时捕捉学习者特定和上下文维度。
为了应对这些挑战,我们提出了**上下文对齐对比回归**,这是一个用于感知L1的词汇难度预测的多目标框架。我们的方法(i)将直接回归与跨视图上下文对比学习相结合,以对齐不同词汇视图下的表示,(ii)纳入序数软对比学习以保留分级难度结构,以及(iii)通过岭集成利用互补的编码器模型。这些组件共同实现了更鲁棒、对齐且可解释的难度估计。
## 2 背景
最近的研究表明,基于Transformer的模型可以从上下文化和多语言表示中预测词汇难度\(Shardlowet al\.,2021 (https://arxiv.org/html/2605.08950#bib.bib15),2024 (https://arxiv.org/html/2605.08950#bib.bib18); Skidmoreet al\.,2025 (https://arxiv.org/html/2605.08950#bib.bib17)\)。这些方法的动机源于词汇复杂度预测在文本简化、可读性评估和语言学习等应用中的日益重要性\(Shardlow,2022 (https://arxiv.org/html/2605.08950#bib.bib34); Rotaru,2021 (https://arxiv.org/html/2605.08950#bib.bib33)\)。特别是,SemEval-2021等共享任务表明,微调的Transformer模型可以通过利用上下文信息实现强大的性能\(Shardlowet al\.,2021 (https://arxiv.org/html/2605.08950#bib.bib15); Rotaru,2021 (https://arxiv.org/html/2605.08950#bib.bib33)\)。
然而,大多数方法依赖于仅回归训练,其中监督仅通过标量难度分数提供。这可以提高预测准确性,但它并不直接构建表示空间。结果是,具有相似难度的项目可能在潜在空间中不相近,而具有不同难度水平的项目可能没有被清晰分离。在多语言设置中,这种局限性变得更加明显,因为模型必须捕捉跨语言对齐和特定语言的变化\(Skidmoreet al\.,2025 (https://arxiv.org/html/2605.08950#bib.bib17)\)。
对比学习通过示例之间的关系来塑造表示,从而解决了这一局限性\(Chenet al\.,2020 (https://arxiv.org/html/2605.08950#bib.bib22); Khoslaet al\.,2020 (https://arxiv.org/html/2605.08950#bib.bib24)\)。这适用于词汇难度预测,其中难度取决于目标词、上下文和学习者特定的变化。最近的对比回归方法通过连续目标值中的邻近性而非离散标签来定义相似性\(Zhaet al\.,2023 (https://arxiv.org/html/2605.08950#bib.bib26); Keramatiet al\.,2024 (https://arxiv.org/html/2605.08950#bib.bib28)\),使其适用于序数难度分数。因此,我们将感知L1的词汇难度预测构建为一个将直接回归与辅助对比监督相结合的多目标问题。
## 3 上下文对齐对比回归
基于词汇难度预测和感知L1建模的最新工作\(Shardlowet al\.,2021 (https://arxiv.org/html/2605.08950#bib.bib15),2024 (https://arxiv.org/html/2605.08950#bib.bib18); Skidmoreet al\.,2025 (https://arxiv.org/html/2605.08950#bib.bib17)\),我们提出了**上下文对齐对比回归**,它将直接回归与表示级对比正则化相结合。给定富含感知L1上下文信息(如翻译上下文和英语目标信息)的输入实例,模型将多个上下文视图编码到共享表示空间中。生成的表示用于难度预测和对比学习。
参见图1说明:所提出的方法结合回归和对比辅助目标,包括跨视图对齐和序数感知表示学习,以学习在不同视图和难度级别之间对齐的表示。来自多个编码器模型的输出使用岭回归进行集成,以产生最终预测。
具体而言,我们使用回归损失(§3.1 (https://arxiv.org/html/2605.08950#S3.SS1))进行直接难度预测,跨视图上下文对比损失(§3.2 (https://arxiv.org/html/2605.08950#S3.SS2))用于学习视图不变上下文表示,以及序数软对比损失(§3.3 (https://arxiv.org/html/2605.08950#S3.SS3))用于在潜在空间中编码难度分数的连续排序。通过组合这些,整体训练目标不仅拟合目标分数,而且提供一个既在上下文稳定又与任务的序数结构平滑对齐的表示空间。我们系统的总体解释如图1 (https://arxiv.org/html/2605.08950#S3.F1)所示。
### 3.1 回归目标
回归目标用于直接监督最终预测。令 \(h_i \in \mathbb{R}^d\) 表示项目 \(i\) 的共享编码器表示,并令 \(\hat{y}_i\) 表示由回归头生成的标量预测。模型使用均方误差进行优化:
$$ \mathcal{L}_{\mathrm{reg}} = \frac{1}{B} \sum_{i=1}^{B} (\hat{y}_i - y_i)^2, \tag{1} $$
其中 \(y_i\) 是与项目 \(i\) 关联的标签,\(B\) 是批次大小。
虽然这个目标为分数预测提供了直接监督,但它并没有明确强制同一词汇项目的不同上下文实现之间的表示一致性,也没有保留具有相似难度水平的项目之间的邻近结构。为了解决这些限制,我们引入了两个辅助对比目标,根据上下文对齐和序数难度结构对表示空间进行正则化。
### 3.2 跨视图上下文对比目标
词汇难度主要由目标词的内在属性决定,而不是由上下文的表层变化决定\(Paetzold and Specia,2016a (https://arxiv.org/html/2605.08950#bib.bib20); Gooding and Kochmar,2018 (https://arxiv.org/html/2605.08950#bib.bib21); Shardlowet al\.,2021 (https://arxiv.org/html/2605.08950#bib.bib15)\)。然而,上下文编码器可能会将词汇信息与上下文特定线索混合,这可能导致同一词汇项目在不同上下文中的表示不一致。
为了减少这种效应,我们在词汇难度预测中使用跨视图对比目标。与依赖随机增强的标准对比学习方法不同\(van den Oordet al\.,2019 (https://arxiv.org/html/2605.08950#bib.bib23); Chenet al\.,2020 (https://arxiv.org/html/2605.08950#bib.bib22)\),我们的方法使用来自感知L1输入和第4.2节 (https://arxiv.org/html/2605.08950#S4.SS2)中描述的上下文对齐表示的任务特定配对视图。这鼓励编码器学习在上下文变化中保持稳定但仍能区分不同词汇项目的表示\(Khoslaet al\.,2020 (https://arxiv.org/html/2605.08950#bib.bib24)\)。
$$ z_i^{\mathrm{tgt}} = H(\mathrm{en\_tgt}_i) \tag{2} $$
$$ z_i^{\mathrm{full}} = H(\mathrm{full\_input}_i) \tag{3} $$
给定大小为 \(B\) 的小批次,每个实例通过两个匹配的视图,\(\mathrm{en\_tgt}\)(公式2 (https://arxiv.org/html/2605.08950#S3.E2))和 \(\mathrm{full\_input}\)(公式3 (https://arxiv.org/html/2605.08950#S3.E3))进行编码,产生 \(2B\) 个表示。由于词汇难度预测被构建为回归任务,正样本对由跨视图对应关系定义,而不是共享类标签。因此,每个锚定表示 \(z_i\) 与其来自替代视图的匹配表示配对。该目标形式化为:
$$ \mathcal{L}_{\mathrm{CVCCL}} = -\frac{1}{2B} \sum_{i=1}^{2B} \log \frac{\exp\left(z_i^\top z_{i^+} / \tau\right)}{\sum_{k=1}^{2B} \mathbf{1}_{[k \neq i]} \exp\left(z_i^\top z_{k} / \tau\right)} \tag{4} $$
### 3.3 序数软对比目标
虽然跨视图目标促进了视图间的一致性,但它并没有明确捕捉词汇难度的序数结构。由于难度被表示为连续的心理测量估计值,而不是离散类标签\(Shardlowet al\.,2021 (https://arxiv.org/html/2605.08950#bib.bib15)\),具有相近分数的项目在表示空间中应比具有遥远分数的项目更近。标准对比目标依赖于实例判别或离散类监督\(Chenet al\.,2020 (https://arxiv.org/html/2605.08950#bib.bib22); Khoslaet al\.,2020 (https://arxiv.org/html/2605.08950#bib.bib24)\),而最近的面向回归的对比方法通过根据目标距离或顺序组织表示来解决这一限制\(Zhaet al\.,2023 (https://arxiv.org/html/2605.08950#bib.bib26); Keramatiet al\.,2024 (https://arxiv.org/html/2605.08950#bib.bib28); Xueet al\.,2024 (https://arxiv.org/html/2605.08950#bib.bib27)\)。
基于这一动机,我们引入了一种序数软对比目标,用从分数邻近性导出的连续成对权重替换二进制对分配。这允许模型在嵌入空间中保留词汇难度的分级结构。令 \(u_i\) 表示项目 \(i\) 的表示,并令 \(y_i\) 为其词汇难度分数。对于大小为 \(B\) 的批次,我们定义项目 \(i\) 和 \(j\) 之间的亲和度为:
$$ w_{ij} = \exp\left(-\frac{(y_i - y_j)^2}{2\sigma^2}\right), \quad w_{ii} = 0, \tag{5} $$
其中 \(\sigma\) 控制目标对词汇难度差异的响应强度。具有相似分数的对获得较大的权重,而具有遥远分数的对获得较小的权重。然后,我们定义批次中剩余项目上锚 \(u_i\) 的相似性分布为:
$$ p_{ij} = \frac{\exp\left(\operatorname{sim}(u_i, u_j) / \tau\right)}{\sum_{k \neq i} \exp\left(\operatorname{sim}(u_i, u_k) / \tau\right)}, \quad j \neq i, \tag{6} $$
其中 \(\operatorname{sim}(u_i, u_j)\) 表示余弦相似度,\(\tau\) 是温度参数。序数软对比损失随后定义为:
$$ \mathcal{L}_{\mathrm{OSCL}} = \frac{1}{B} \sum_{i=1}^{B} \left( - \frac{\sum_{j \neq i} w_{ij} \log p_{ij}}{\sum_{j \neq i} w_{ij}} \right). \tag{7} $$
该目标通过根据分级难度相似度塑造表示空间来补充跨视图对比损失。具有相近难度分数的项目被鼓励靠得更近,而具有较大分数差异的项目施加较弱的吸引力。结果,学习到的嵌入空间更忠实地反映了词汇难度的连续和序数性质。
### 3.4 基于岭的集成
在使用提出的多目标学习框架训练模型后,我们通过利用具有不同编码器骨干的模型集成为进一步提高预测性能。每个相似文章
基于对比 LLM 微调对齐对话附和信号与语境表征
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。
上下文优化下的检索增强生成:从梯度下降视角
本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。
单词难度由何决定?Sakura在BEA 2026词汇难度预测共享任务中的表现
本文介绍了两种词汇难度预测模型:一种是通过软目标损失微调的黑盒大语言模型,实现了高准确度;另一种是可解释模型,能提供对难度因素的深入分析。这些模型参与了BEA 2026共享任务,并取得了强相关性。
CroCo:基于自生成的跨语言对比偏好调优
本文介绍了CroCo,一种基于自生成响应的跨语言对比偏好调优方法,表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序,在无需特定语言标注的情况下,提升模型在14种语言上的性能。
No-Worse Context-Aware Decoding:在上下文条件生成中防止中性退化
本文提出了一种名为 NWCAD(No-Worse Context-Aware Decoding)的解码阶段适配器。该方法旨在防止“中性退化”问题,即大语言模型(LLM)在处理无信息量上下文时,错误覆盖原有正确答案。NWCAD 采用双流架构设计,并通过门控机制实现对无上下文解码的安全回退。