单词难度由何决定？Sakura在BEA 2026词汇难度预测共享任务中的表现

arXiv cs.CL 2026/05/15 04:00 论文

vocabulary-difficulty shared-task bea-2026 llm fine-tuning explainable-ai english-learners

摘要

本文介绍了两种词汇难度预测模型：一种是通过软目标损失微调的黑盒大语言模型，实现了高准确度；另一种是可解释模型，能提供对难度因素的深入分析。这些模型参与了BEA 2026共享任务，并取得了强相关性。

arXiv:2605.14257v1 公告类型：新摘要：我们描述了两种词汇难度预测模型：一种高精度的黑盒模型，在开放赛道中取得了共享任务的最佳结果，以及一种可解释模型，其表现优于微调编码器基线。作为黑盒模型，我们使用软目标损失函数微调了大语言模型，以有效应用于评分任务，达到了r > 0.91。可解释模型在保持强相关性（r > 0.77）的同时，提供了影响每个项目难度的洞察。我们进一步分析了结果，表明英国文化协会的基于知识的词汇列表（KVL）中的项目难度往往受到拼写难度或测试项目构建的影响，而不仅仅是词汇的真实产出难度。我们的代码可在 https://github.com/adno/vocabulary-difficulty 在线获取。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:20

# 什么让单词变难？Sakura在BEA 2026词汇难度预测共享任务中的表现  
来源：https://arxiv.org/html/2605.14257  
Adam Nohejl¹ 吴萱欣² Yusuke Ide³ Maria Angelica Riera Machin³ Yi-Ning Chang⁴ Hitomi Yanaka¹,⁵,⁶  

¹理化学研究所(RIKEN)  
²大阪大学(The University of Osaka)  
³奈良先端科学技术大学院大学(Nara Institute of Science and Technology)  
⁴国立清华大学(National Tsing Hua University)  
⁵东京大学(The University of Tokyo)  
⁶东北大学(Tohoku University)  

[email protected]  
[email protected]  
[email protected]  
[email protected]  
[email protected]  
[email protected]  

###### 摘要  

我们描述了两种词汇难度预测模型：一种在开放赛道中取得最优共享任务结果的高精度黑箱模型，以及一种性能超越微调编码器基线的可解释模型。作为黑箱模型，我们使用软目标损失函数微调了一个大型语言模型(LLM)，有效应用于评分任务，达到了相关系数 r > 0.91。可解释模型在保持强相关性(r > 0.77)的同时，提供了关于各项目难度影响因素的见解。我们进一步分析了结果，表明英国文化协会的基于知识的词汇表(KVL)中项目的难度往往受到拼写难度或测试题构建的影响，而不仅仅是单词本身的生产难度。我们已将代码在线公开。¹  

¹https://github.com/adno/vocabulary-difficulty  

# 什么让单词变难？Sakura在BEA 2026词汇难度预测共享任务中的表现  

Adam Nohejl¹ 吴萱欣² Yusuke Ide³ Maria Angelica Riera Machin³ Yi-Ning Chang⁴ Hitomi Yanaka¹,⁵,⁶  
¹理化学研究所(RIKEN) ²大阪大学(The University of Osaka) ³奈良先端科学技术大学院大学(Nara Institute of Science and Technology) ⁴国立清华大学(National Tsing Hua University) ⁵东京大学(The University of Tokyo) ⁶东北大学(Tohoku University)  

[email protected]  
[email protected]  
[email protected]  
[email protected]  
[email protected]  
[email protected]  

## 1 引言  

BEA 2026面向英语学习者的词汇难度预测共享任务(Felice and Skidmore, 2026 (https://arxiv.org/html/2605.14257#bib.bib9))的目标是构建在给定学习者母语(L1)条件下英语单词难度的预测模型。此类难度预测可作为教学材料或计算机自适应测试的基础。该共享任务使用了一个大型数据集，包含以中文、德语和西班牙语为母语的学习者的词汇难度评分，涵盖数千个词汇测试项目，即英国文化协会的基于知识的词汇表(KVL; Schmitt et al., 2021 (https://arxiv.org/html/2605.14257#bib.bib27), 2024 (https://arxiv.org/html/2605.14257#bib.bib28))。每个测试项目(如表1示例所示)包含一个等效的L1单词、L1语境以及英语单词首字母和字母长度的提示。因此，该测试形式侧重于产出性知识，特别是根据测试提示正确拼写英语单词的能力。我们旨在预测的难度分数是广义线性混合模型(GLMM)的截距值，即学习者正确回答的对数几率。  

| L1 | 西班牙语 |  
| :--- | :--- |  
| 英语单词 | house |  
| 词性 | 名词 |  
| 测试项目 | |  
| L1单词 | casa |  
| L1语境 | Vivo en una casa grande que tiene tres dormitorios. |  
| 提示 | h _ _ _ _ (首字母和空格) |  
| 难度分数 | 3.07 ↑ 容易, ↓ 困难 |  

表1: KVL数据中的一个项目示例。  

该共享任务包括一个封闭赛道和一个开放赛道。开放赛道完全不受限制，而封闭赛道中大型语言模型(LLM)的使用仅限于特征提取，并且只能使用特定L1的训练数据。我们在此背景下提出了两种词汇难度建模方法，各自以不同方式利用LLM：  

##### 使用软目标微调的LLM。  
我们提出了一种简单而新颖的技术，使用软目标微调LLM以预测连续值。基于该技术的模型在开放赛道中超越了所有其他共享任务提交结果。  

##### 可解释模型。  
我们使用定义明确的特征构建模型，例如与L1单词的相似度和拼写难度，其中部分特征基于LLM提示，并使用SHapley加法解释(SHAP; Lundberg and Lee, 2017 (https://arxiv.org/html/2605.14257#bib.bib15))来量化每个特征对预测的影响。该模型在封闭赛道中表现竞争力强，超越了微调编码器基线。我们的分析表明，除了单词的产出难度外，KVL数据中难度分数还受到两个因素的影响：拼写难度以及某些测试项目中L1等效词和语境的选择。  

## 2 相关工作  

BEA 2026共享任务(Felice and Skidmore, 2026 (https://arxiv.org/html/2605.14257#bib.bib9))中所设想的词汇难度预测任务，有效地将词汇复杂度预测(LCP)或复杂词识别(CWI)与测试项目难度估计相结合。CWI是在句子上下文中识别复杂词的任务。CWI共享任务(Paetzold and Specia, 2016 (https://arxiv.org/html/2605.14257#bib.bib24); Yimam et al., 2018 (https://arxiv.org/html/2605.14257#bib.bib35))主要由基于词级特征的特征系统主导。LCP是CWI的扩展，其中复杂度在连续尺度上预测。早期共享任务(Shardlow et al., 2021 (https://arxiv.org/html/2605.14257#bib.bib31))中表现最佳的方法基于微调掩码语言模型(MLM)。在BEA 2024多语言词汇简化流程共享任务(MLSP; Shardlow et al., 2024 (https://arxiv.org/html/2605.14257#bib.bib30))中，针对十种语言且训练数据有限的情况，预测词汇复杂度的最佳系统要么完全基于LLM提示，要么基于词级特征。Nohejl等人(2025a (https://arxiv.org/html/2605.14257#bib.bib20))提出了一种基于LLM提示的LCP方法G-Scale，该方法通过对概率应用温度缩放并对最终输出进行线性回归来与所需尺度对齐。他们还证明了添加单个特征(对数频率)可以进一步改进基于LLM的预测。Smădu等人(2024 (https://arxiv.org/html/2605.14257#bib.bib33))在包含数千个示例训练数据(即与本共享任务相似的设置)的CWI和LCP数据集上比较了基于特征的模型和微调Transformer(MLM和LLM)。该研究得出结论，LLM很少优于计算需求较低的MLM和基于特征的模型。Smădu等人(2024 (https://arxiv.org/html/2605.14257#bib.bib33))仅使用标准交叉熵损失，以离散化复杂度值作为硬目标来微调LLM。我们通过使用软目标来规避离散化，从而在LLM和MLM微调性能上取得了重大改进。带软目标的交叉熵损失通常与知识蒸馏相关(Hinton et al., 2015 (https://arxiv.org/html/2605.14257#bib.bib10))，并已用于蒸馏MLM和LLM(例如，Sanh et al., 2019 (https://arxiv.org/html/2605.14257#bib.bib26))。然而，据我们所知，它尚未被用于微调以预测连续值。  

与LCP和CWI类似，词汇难度预测任务的目标是估计给定特定上下文(确定单词义项)的单词难度。然而，存在显著差异：  

1. LCP和CWI中的复杂度是通过*主观评分*来衡量的。本任务中的难度基于*测试项目的成功率*。  
2. LCP和CWI的输入仅为单词及其上下文，且均为同一种语言。本任务的输入包含英语和L1的多个元素。  
3. LCP和CWI侧重于*阅读理解*。本任务侧重于*书面产出*。  

我们解决了该任务的具体方面，同时借鉴了先前LCP和CWI研究的见解。Skidmore等人(2025 (https://arxiv.org/html/2605.14257#bib.bib32))在KVL数据上微调了编码器(即MLM)。他们的微调XLM-RoBERTa模型作为共享任务的基线。他们使用SHAP作为错误分析工具，将不准确的预测归因于特定输入令牌位置。我们使用SHAP进行可解释性，将预测归因于更高级别的特征，例如拼写难度或与L2的相似度。  

## 3 方法  

我们提出两种核心方法：使用软目标微调LLM和MLM以预测连续难度值，以及使用LLM提取特征的可解释模型。为了进一步提高两种方法的准确性，我们尝试了集成方法和额外特征。  

### 3.1 使用软目标微调  

在以下内容中，我们假设一个LLM或MLM具有令牌词汇表 V，并预测在输入 x 条件下令牌 i ∈ V 的概率分布，表示为 $\\hat{p}(i|\\mathbf{x})$。MLM和LLM训练的标准损失函数是带硬目标的交叉熵损失，其中整个概率质量分配给单个目标令牌，即目标令牌的负对数似然。将这些模型调整为预测连续值需要一种不同的方法。虽然编码器模型(通常是MLM)有时会使用回归头和均方误差(MSE)损失进行微调以预测连续值，但LLM并非如此。LLM流行的监督微调(SFT)范式是将此类任务转换为文本生成，通过离散化连续值并使用上述带硬目标的交叉熵损失：  

$$\\ell = -\\log \\hat{p}(v(d(y)) | \\mathbf{x})$$  
(1)  

其中 d 是离散化(例如四舍五入到最近整数)，v 是将离散化值映射到令牌。这些使用MLM和LLM预测连续值的常见方法反映在基于编码器的LCP方法(例如，Ide et al., 2023 (https://arxiv.org/html/2605.14257#bib.bib11))、本共享任务的编码器基线(Skidmore et al., 2025 (https://arxiv.org/html/2605.14257#bib.bib32))以及基于LLM的LCP方法(例如，Smădu et al., 2024 (https://arxiv.org/html/2605.14257#bib.bib33))中。与编码器回归使用的MSE损失相反，LLM的标准交叉熵损失要求将连续目标值离散化为少量标签，从而损失精度。我们的方法通过使用带软目标的交叉熵损失微调LLM来规避这种文本生成与连续值预测之间的明显不匹配：  

$$\\ell = -\\sum_{i \\in V} p(i) \\log \\hat{p}(i | \\mathbf{x})$$  
(2)  

我们提示模型在离散尺度 S 上以连续整数点的形式预测值，例如 S = {1,2,3,4,5}。然而，我们的目标是预测连续值 y ∈ [min S, max S]。因此，我们将 y 表示为其最近点的概率加权和。具体来说，我们在尺度 S 上选择两个点 a 和 a+1，使得 a ≤ y ≤ a+1，并定义概率为：  

$$p(i) = \\begin{cases} (a+1) - y & \\text{if } i = v(a), \\\\ y - a & \\text{if } i = v(a+1), \\\\ 0 & \\text{otherwise.} \\end{cases}$$  
(3)  

我们使用 p 作为方程2所定义损失函数中的软目标概率。在推理时，我们预测单个令牌的令牌概率分布 $\\hat{p}$，然后计算最终输出 $\\hat{y}$ 作为令牌概率加权平均值：  

$$\\hat{y} = \\frac{\\sum_{s \\in S} \\hat{p}(v(s) | \\mathbf{x}) \\cdot s}{\\sum_{s \\in S} \\hat{p}(v(s) | \\mathbf{x})}$$  
(4)  

同样的推理技术曾被Liu等人(2023 (https://arxiv.org/html/2605.14257#bib.bib14))用于LLM，通过少样本学习推断连续分数，其变体也已应用于LCP(Aumiller and Gertz, 2022 (https://arxiv.org/html/2605.14257#bib.bib1); Enomoto et al., 2024 (https://arxiv.org/html/2605.14257#bib.bib8); Smădu et al., 2024 (https://arxiv.org/html/2605.14257#bib.bib33); Nohejl et al., 2025a (https://arxiv.org/html/2605.14257#bib.bib20))，但缺少用于微调的互补损失函数。由于这两种互补技术(软目标交叉熵损失和概率加权推理)需要预测单个令牌，因此它们不仅可用于LLM，还可通过掩码令牌预测用于MLM。对于LLM，输入 x 就是提示；对于MLM，它是序列"[CLS] 提示 [MASK] [SEP]"。  

### 3.2 可解释模型  

直接微调LLM或MLM在此任务上很高效，但会产生黑箱模型，即其内部决策过程难以解释的模型。作为可用SHAP解释的替代模型，我们训练了一个XGBoost(Chen and Guestrin, 2016 (https://arxiv.org/html/2605.14257#bib.bib4))回归器。SHAP通过SHAP值 φ_i 对模型输出 f(x) 提供解释，这些值加性地表示每个特征 x_i 的局部重要性：  

$$f(\\mathbf{x}) = E[f(\\mathbf{x})] + \\sum_{i=1}^{n} \\phi_i$$  
(5)  

SHAP值可以是正数或负数，表示每个特征相对于期望值将预测推高或降低多少。我们利用SHAP值的加性性质，将相关特征组的重要性表示为其SHAP值之和。我们的可解释模型使用以下特征：  

##### 产出频率。  
我们使用英语单词在Lang-8学习者语料库(Mizumoto et al., 2011 (https://arxiv.org/html/2605.14257#bib.bib18))中的对数频率，以估计学习者对其的书面产出频率。三个特征代表(1)所有学习者、(2)西班牙语母语学习者、(3)中文母语学习者的子语料库。德语母语学习者的数据不够充分。  

##### 接受频率。  
我们使用英语单词在口语代表性语料库中的对数频率和对数范围，以估计其接受频率。具体来说，我们使用TUBELEX中(1)频率和(2)范围(YouTube频道)的对数(Nohejl et al., 2025b (https://arxiv.org/html/2605.14257#bib.bib21))，以及(3)英国国家语料库(BNC; BNC Consortium (https://arxiv.org/html/2605.14257#bib.bib2), 2007 (https://arxiv.org/html/2605.14257#bib.bib2))口语子语料库中的频率。  

##### CEFR等级。  
我们使用来自剑桥英语词汇档案(Capel, 2012 (https://arxiv.org/html/2605.14257#bib.bib3))的英语单词最低CEFR等级。  

##### 单词长度。  
我们测量英语单词的字母长度。  

##### L1相似度。  
我们基于去除变音符号并小写化后的长度归一化Levenshtein距离，计算英语单词与L1单词的字符级相似度。该特征仅适用于使用字母的语言：西班牙语和德语。  

##### 拼写难度。  
我们提示GPT-5.2(OpenAI, 2025 (https://arxiv.org/html/2605.14257#bib.bib23))为每个L1评估英语单词的拼写难度，给定L1等效词和英语单词的发音。  

##### 词汇歧义。  
我们提示(1)GPT-5.2和(2)DeepSeek-V3。

相似文章

利用上下文对齐对比学习与岭回归集成提升词汇难度预测

arXiv cs.CL

本文引入了上下文对齐对比回归（Context-Aligned Contrastive Regression），通过解决语言学习数据集中的跨语言对齐和等级结构挑战，来提升词汇难度预测的效果。

基于微调Transformer的无响应项目难度建模用于多项选择题：组件表示与多任务学习

arXiv cs.CL

本文提出对Transformer编码器进行端到端微调，用于多项选择阅读理解项目的无响应项目难度建模，包括组件变体和多任务变体，表明多任务学习在小样本情况下有所改进。

SwanNLP在SemEval-2026任务5中的工作：用于叙述词义消歧中合理性评分的LLM框架

arXiv cs.CL

SwanNLP在SemEval-2026任务5中提出了一个基于LLM的合理性评分框架，用于叙述词义消歧任务。该框架采用结构化推理和动态少样本提示技术，预测短篇故事中词义的人类感知合理性。研究表明，通过少样本提示和模型集成，商用大参数语言模型能够有效复现真实叙述场景中的人类判断模式。

语言模型碎片整合：基于可解释性的词汇扩展方法

arXiv cs.CL

# 基于可解释性的词汇扩展方法来源：[https://arxiv.org/html/2604.16656](https://arxiv.org/html/2604.16656) ## 语言模型碎片整合：基于可解释性的词汇扩展方法 Maitrey Mehta¹, Nishant Subramani², Zhichao Xu¹, Ashim Gupta¹, Vivek Srikumar¹ 1 Kahlert School of Computing, University of Utah 2 Language Technologies Institute, Carnegie Mellon University {maitrey,svivek}@cs.utah.edu ###### 摘要所有语言生而平等；但在词元化方面，某些语言更为平等。词元是当代大语言模型访问成本和延迟的隐藏货币。然而，许多使用非拉丁文字书写的语言却面临着糟糕的“汇率”：大语言模型需要用数倍的词元来编码与英语相同的信息。我们的分析表明，这个被称为“词元过度碎片化”的问题在现代开源大语言模型中依然存在。标准解决方案是词汇扩展，即添加模型词汇库中缺失的目标语言词汇。在这项工作中，我们全面研究并推进基于可解释性的词汇扩展这一新研究方向。我们聚焦于词汇扩展过程中的两个核心决策：应该添加哪些词汇？以及如何初始化它们对应的输入和输出嵌入？首先，我们质疑使用基于频率的方法来选择待添加候选词汇的传统做法（这一决策长期以来被视为理所当然），并证明基于可解释性的方法能够提供更优的性能-词元效率权衡。其次，我们通过展示对于多种非拉丁文字语言相较于基线初始化方法取得的大幅提升（约20分），加强了基于可解释性的嵌入初始化的可行性。我们发现了“子词去词元化”现象，即模型在多层网络中逐步将碎片化的子词词元合并为更大的子词。基于对这一现象的分析，我们提出了FragMend，以进一步突破基于可解释性的扩展的效率上限。我们通过与强基线方法的比较验证了FragMend的有效性，并对其设计选择进行了广泛分析。

论词汇性在大语言模型中的持续影响

arXiv cs.CL

本文研究了词汇重叠（而非语义内容）如何影响跨层和跨架构的大语言模型表示，并证明即使在为语义相似性训练的模型中，这种词汇效应依然存在，导致下游任务性能下降。

相似文章

利用上下文对齐对比学习与岭回归集成提升词汇难度预测

基于微调Transformer的无响应项目难度建模用于多项选择题：组件表示与多任务学习

SwanNLP在SemEval-2026任务5中的工作：用于叙述词义消歧中合理性评分的LLM框架

语言模型碎片整合：基于可解释性的词汇扩展方法

论词汇性在大语言模型中的持续影响

提交意见反馈