UOL@IDEM在BEA 2026共享任务1中的提交:融合神经与丰富特征建模的L1感知词汇难度预测

arXiv cs.CL 论文

摘要

本文描述了UOL@IDEM在BEA 2026 L1感知词汇难度预测共享任务中的封闭赛道提交方案,结合多语言上下文表示与工程化特征。该系统在西班牙语、德语和中文上取得了有竞争力的RMSE分数,其中词频是最稳定的预测因子。

arXiv:2606.24501v1 公告类型:新 摘要:本文描述了UOL@IDEM在BEA 2026 L1感知词汇难度预测共享任务中的封闭赛道提交方案。我们将该任务建模为回归问题,并为西班牙语、德语和简体中文\footnote{为简洁起见,下文使用\emph{中文}。}分别训练了独立的系统。我们的系统结合多语言上下文表示与工程化特征,涵盖词频、表面形式、检索证据、语义对齐、同源词相似度及掩码语言模型可预测性。开发集结果显示了相对于官方封闭赛道基线的持续改进,其中句子嵌入编码器(如BGE-M3、多语言E5和LaBSE)表现最佳。官方提交在西班牙语、德语和中文上分别取得了1.132、1.037和0.891的RMSE分数。特征分析表明词频是最稳定的预测因子,而上下文可预测性、形式相似度、检索和语义特征提供了互补的L1敏感信号。错误分析显示排名性能强劲,但对最容易的项目校准较弱,这些项目往往被高估。参见 https://github.com/Nouran-Khallaf/UoL-IDEM-BEA2026-Vocabulary-Difficulty-Prediction
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:47

# UOL@IDEM at BEA 2026 共享任务 1:面向 L1 感知词汇难度预测的神经融合与丰富特征建模
来源:https://arxiv.org/html/2606.24501
Nouran Khallaf1,2 Serge Sharoff1 1英国利兹大学语言、文化与社会学院翻译、本地化与口译研究中心 2埃及亚历山大大学 \{n.khallaf,s.sharoff\}@leeds.ac.uk

###### 摘要

本文描述了 UOL@IDEM 在 BEA 2026 共享任务(L1 感知词汇难度预测)中的封闭赛道提交方案。我们将该任务建模为回归问题,并为西班牙语、德语和汉语分别训练了独立的系统。我们的系统结合了多语言上下文表示与工程化特征,这些特征涵盖了词频、表面形式、检索证据、语义对齐、同源词相似性以及掩码语言模型的可预测性。开发集结果显示,该系统持续优于官方封闭赛道基线,其中 BGE-M3、多语言 E5 和 LaBSE 等句子嵌入编码器表现最佳。官方提交在西班牙语、德语和汉语上分别取得了 1.132、1.037 和 0.891 的 RMSE 分数。特征分析表明,词频是最稳定的预测因子,而上下文预测性、形式相似性、检索和语义特征提供了互补的 L1 敏感信号。错误分析显示排名性能良好,但对最简单的项目校准较弱,这些项目往往被高估。

UOL@IDEM at BEA 2026 Shared Task 1: Neural Fusion and Feature-Rich Modeling for L1-Aware Vocabulary Difficulty Prediction

Nouran Khallaf1,2 Serge Sharoff1
1Centre for Translation, Localisation and Interpreting Studies, School of Languages, Cultures and Societies, University of Leeds, UK
2Alexandria University, Egypt
\{n.khallaf,s.sharoff\}@leeds.ac.uk

## 1 引言

文本复杂度和可读性评估是教育 NLP、语言学习和文本改编的核心。其关键组成部分是词汇复杂度预测(LCP),用于估计一个单词或多词表达对目标读者可能造成的难度(Shardlow 等,2021;2022;North 等,2023)。词汇难度受词频、词长、词法、多义性、上下文和读者背景的影响,并支持可读性评估、简化、辅导和机器翻译等应用(Shardlow 等,2022;North 等,2023;Ohuoba 等,2024)。

BEA 2026 共享任务通过使词汇难度明确地具有 L1 感知性,扩展了 LCP。在此设置中,英语目标词的难度不仅取决于单词本身,还取决于其使用上下文,以及通过翻译和迁移线索与学习者母语的关系。因此,同一个英语单词对于西班牙语、德语和汉语使用者可能具有不同的难度特征。更具体地说,该任务使用了基于知识的词汇列表(KVL)资源的扩展版本,将英语目标项与多语言提示以及心理测量学校准的基于 GLMM 的难度评分配对(Skidmore 等,2025)。

在封闭赛道中,系统仅使用共享任务资源为每个 L1 训练独立的模型(Felice and Skidmore, 2026;British Council, 2026)。因此,我们将该任务建模为三个并行的预测设置:西班牙语→英语、德语→英语和汉语→英语。

我们的方法尝试使用中型文本编码器(最多 560M 参数),并辅以工程化特征,如词汇频率、正字法线索、上下文检索、同源词相似性、语义域对齐和掩码语言模型的可预测性。我们在神经融合框架内评估了多种编码器,并比较了全特征和减特征变体。

我们的实验显示了三个主要发现。首先,在所有三种语言上,神经融合均优于官方封闭赛道基线,RMSE 提高了 0.21–0.26。其次,面向句子嵌入的多语言模型,尤其是 BGE-M3(Chen 等,2024)、多语言 E5(Wang 等,2024)和 LaBSE(Feng 等,2022),比简单的 transformer 基线(如 mBERT 和 XLM-R)更有效。第三,特征和错误分析表明,词频是最稳定的预测因子,贡献高于编码器基线,而语义、同源词、检索和基于 MLM 的线索可以提供互补的 L1 敏感信息。

## 2 数据和预处理

数据探索表明,`L1_source_word` 通常包含噪声形式,需要在特征提取前进行语言感知的规范化。我们处理词汇变体、否定约束、形态片段、否定式指令模式、解释性注释和标点符号。例如,多个候选被拆分并用变体计数特征跟踪(`Korridor, Flur` → `Korridor`);排除说明被移除并编码为二元特征(`Flugzeug (nicht: ...)` → `Flugzeug`);截断的德语复合词被规范化为词干(`Regierungs-` → `Regierungs`);西班牙语中类似指令的短语如 `no es` 和 `la respuesta no termina en` 被剥离以提取词汇;中文标点、引导性注释和括号内的说明在适当时被修剪(`(美)走廊,过道` → `走廊`)。为了使预处理可追溯,我们保留原始源词字符串,并使用清洗后的词汇形式进行特征提取。当英语目标包含多个候选时,我们选择出现在 L1 上下文中的候选。

## 3 方法

我们将该任务制定为监督回归。每个实例包含一个 L1 特定的上下文、一个 L1 源词、一个英语目标词和一个连续的难度分数。模型使用文本输入和工程化特征,这些特征捕获了互补的线索:频率、词汇形式、检索证据、MLM 和 surprisal 估计、语义域信息以及基于同源词的相似性。

我们比较了三种集成策略:(1)文本化特征回归,将选定特征作为输入提示的一部分呈现;(2)多阶段延迟融合,将冻结的编码器嵌入与下游回归器结合;(3)神经融合,同时优化上下文表示和结构化的表格特征。由于神经融合在初始比较中表现最佳,我们将其作为主要设置。

### 3.1 工程化特征

除了 BERT 衍生的文本表示之外,我们设计了一组工程化特征来捕获词汇难度、跨语言可检索性、上下文可预测性、语义兼容性和源词歧义性。我们将这些特征分为基于频率的特征、词汇特征、基于检索的特征、掩码语言模型和 surprisal 特征、语义特征以及基于同源词的特征。完整的特征描述见附录 A,表 LABEL:tab:appendix_engineered_features。

#### 基于频率的特征。

我们结合了三种互补的频率资源。KELLY(Kilgarriff 等,2014)来源于精选的网络语料库,提供面向教学的指标,包括频率排名、百分位数和 CEFR 对齐标签,这些近似于学习者词汇进展(Council of Europe, 2001)。`wordfreq` Python 包提供通用的基于语料库的估计,包括原始频率、Zipf 频率、频率百分位数和逆频率成本(Speer 等,2018;Sharoff 等,2017)。SUBTLEX 列表来源于字幕,提供频率和上下文多样性度量,反映了在日常生活语境中的出现频率和暴露程度(Brysbaert and New, 2009;van Heuven 等,2014)。综合起来,这些特征从教学、通用语料库和日常暴露的角度建模熟悉度,为词汇难度预测提供了强大的基线信号(Shardlow 等,2021, 2022;North 等,2023)。

#### 表面形式和形态句法特征。

我们从英语目标和清洗后的 L1 源词中提取表面形式和形态句法特征。这些包括目标/源长度、目标音节数、线索信息量和隐藏线索字符。我们还编码 POS 信息,使用数据集提供的目标 POS 和 spaCy 推导的源 POS(Honnibal 等,2020)。除了这些特征,我们还保留了一组在第 2 节中介绍的预处理衍生指标,包括排除说明、候选替代形式及其相关计数的信号。

#### 基于检索的特征。

我们通过将任务视为上下文引导的英语目标跨语言检索来推导基于检索的特征。我们构建一个固定的英语候选库,包含可能的目标词,使用 mBERT(Devlin 等,2019)对候选进行编码,并将它们映射到一个共享的多语言嵌入空间中。对于每个实例,L1 上下文和源词被编码为源端表示,并与该库进行匹配。候选根据可用约束(首字母线索、目标长度和词性)进行重新排序。匹配的候选被提升,而不匹配的则被降权或排除。然后我们提取描述黄金目标支持的特征,包括重排序前后的排名、余弦分数和重排序分数、最佳候选分数、边际、最近邻置信度和熵、黄金目标概率度量以及有效候选的数量。黄金目标的检索位置被编码为其检索到的排名,否则为 0。这些特征捕获了目标从 L1 上下文和源词中可恢复的程度。

#### 掩码语言模型和 surprisal 特征。

我们使用 mBERT(Devlin 等,2019)的 MLM 头来估计英语目标在上下文中的可预测性。与将目标与外部候选库进行比较的检索特征不同,MLM 特征来自掩码目标位置的输出分布。我们应用目标约束,特别是首字母和长度,因此分数既反映了上下文拟合度也反映了目标形式的兼容性。特征包括黄金目标对数概率和排名、掩码令牌熵、top-1 指标、预测边际、目标-预测嵌入相似性以及相关的置信度度量。

由于目标可能包含多个词片,基于概率的量在子词级别计算,并在目标跨度上取平均。对于目标序列 \(t_{1:m}\),我们使用三种 surprisal 变体。同时掩码用 `[MASK]` 替换整个目标跨度:

\[
s_{\mathrm{masked}}(t_{1:m})=-\frac{1}{m}\sum_{j=1}^{m}\log P\!\left(t_j\mid\mathbf{c}_{\mathrm{mask}}\right).
\] (1)

伪对数似然(PLL)一次掩码一个目标词片,同时保持其余词片可见(Salazar 等,2020):

\[
s_{\mathrm{PLL}}(t_{1:m})=-\frac{1}{m}\sum_{j=1}^{m}\log P\!\left(t_j\mid\mathbf{c}^{(j)}\right),
\] (2)

其中 \(\mathbf{c}^{(j)}\) 仅掩码令牌 \(t_j\),允许每个令牌在访问其他目标子词的情况下进行预测。

最后,链式规则 surprisal 从左到右逐步评分目标:

\[
s_{\mathrm{chain}}(t_{1:m})=-\frac{1}{m}\sum_{j=1}^{m}\log P\!\left(t_j\mid\mathbf{c}, t_{1:j-1}\right).
\] (3)

这些度量在全跨度掩码、单令牌掩码和顺序预测下捕获上下文可预测性。

#### 语义特征。

我们从 UCREL 语义分析系统(USAS)推导语义域特征,该系统将词汇项分配至 21 个主要话语领域和 232 个更细粒度的类别(Rayson 等,2004)。对于每个项目,我们用所有可用的 USAS 标签注释 L1 源词和英语目标。我们包括完全相同标签的重叠特征、共享细粒度前缀的特征以及共享主要领域特征。我们还计算加权和未加权的标签熵来捕获语义歧义性,熵越高表示解释越不稳定。

为了捕获超出完全重叠的关联性,我们计算语义偏移分数。设 \(S\) 和 \(T\) 为 L1 源词和英语目标的 USAS 标签集。对于每个源-目标标签对,我们根据最强关联分配一个分级关系分数:完全标签重叠、共享细粒度前缀、共享主要领域、相关主要领域或不相关领域。项目级别的软相似性在完整标签集上计算,语义偏移定义为其补数:

\[
\mathrm{shift}_{\mathrm{sem}}(S,T)=1-\mathrm{sim}_{\mathrm{soft}}(S,T).
\] (4)

较低的值表示较强的语义对齐;较高的值表示较大的语义域偏移。例如,西班牙语 `obra`(“文学作品”)具有 USAS 标签 `A1.1.1|I3.1`,与 `comedy` 的 `E4.1+|K4|Q4.3` 没有重叠。不过,两者都涉及相关领域,软相似性为 0.20,语义偏移为 0.80。覆盖空白使用固定惩罚来处理不匹配的 `Z99` 情况。附录 C,表 7 给出了带有完整 USAS 类别名称的进一步示例。

#### 同源词特征。

我们推导面向同源词的特征来捕获 L1 源词与英语目标之间的词汇迁移信号。这些包括正字法相似性、多语言嵌入余弦相似性、Levenshtein 编辑距离相似性、字符 n-gram 重叠以及前缀/后缀重叠。我们还添加来自 CogNet(一个多语言同源词数据库)的词汇关系特征(Batsuren 等,2019, 2022)。由于任务涵盖英语、西班牙语、德语和汉语,我们将 CogNet 限制为涉及这些语言的条目。这些特征预计对西班牙语-英语和德语-英语最有信息量,同时也能测试同源词关系是否为汉语-英语提供有用信号。

### 3.2 模型架构

#### 文本化特征回归。

主要文本字段和选定的工程化特征被渲染为文本,用多语言 transformer 编码,然后

相似文章

DFKI-MLT在SemEval-2026任务7中:引导多语言模型走向文化知识

arXiv cs.CL

本文介绍了用于SemEval-2026任务7(文化意识)的DFKI-MLT系统,该系统利用来自平行FLORES数据的语言向量,对多语言大语言模型应用激活引导。该系统在多项选择题(MCQ)赛道中达到86.96%的准确率,在17支队伍中排名第7,事后分析表明,提升效果对层敏感,且在不同语言-区域对之间存在差异。

LiquidAI/LFM2.5-ColBERT-350M

Hugging Face Models Trending

LiquidAI 发布 LFM2.5-ColBERT-350M,这是一种后期交互多语言检索模型,同时还有一个密集双编码器变体,两者均基于 LFM2.5-350M-Base,支持 11 种语言,并设计为 RAG 管道的即插即用替代品。

面向 IWSLT 2026 同声传译任务的 MLLP-VRAIN UPV 系统

arXiv cs.CL

本文描述了 MLLP-VRAIN UPV 系统在 IWSLT 2026 同声传译任务中的应用,该系统使用了 Parakeet 和 Qwen 3.5 模型,结合自适应“黑盒”策略和 RAG 机制以获取上下文,实现了显著的质量提升。