PACUTE:面向菲律宾语的音韵、词缀与字符级令牌理解

arXiv cs.CL 论文

摘要

介绍PACUTE,一个包含4600项任务的诊断基准,用于评估菲律宾语的形态理解能力。结果显示,即使是前沿模型在语素分解和能产性形态组合方面仍存在困难。

arXiv:2606.15144v1 公告类型: 新 摘要:大型语言模型(LLM)将文本处理为子词令牌序列,这可能会掩盖构成词形的字符级和形态结构。对于非连接形态的语言,这一限制最为严重,因为标准分词器会系统性地使令牌边界与语素边界错位。我们引入PACUTE,一个包含4600项任务的诊断基准,旨在评估菲律宾语的形态理解能力。菲律宾语的特点是能产性的中缀、重叠以及通常不出现于书面文本中的变音符号驱动的词汇区分。PACUTE包含一个六层组合层次的诊断框架,可定位形态理解失效的环节。通过评估开放权重LLM和前沿商业模型,我们发现开放权重模型在语素分解上的表现接近随机水平,且不受模型规模影响。前沿模型表现更佳,在包含匹配评分下常能识别单个词缀,但在语素转换和音节划分的组合任务上仍远低于其字符级上限。这些结果表明,能产性的形态组合(而非单纯的字符访问)是理解菲律宾语词汇结构的持续瓶颈。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:45

# 面向菲律宾语的音位、词缀及字符级词元理解

来源:https://arxiv.org/html/2606.15144  
Jann Railey Montalan1,2, David Demitri Africa3††footnotemark:, Jimson Paulo Layacan, Richell Isaiah Flores4, Ivan Yuri De Leon4, Lance Calvin Gamboa5  
1AI Singapore, 2南洋理工大学, 3英国AI安全研究所, 4雅典耀马尼拉大学, 5伯明翰大学

###### 摘要

大型语言模型(LLM)将文本处理为子词词元序列,这可能会掩盖单词形成所依赖的字符级和形态结构。对于具有非黏着形态的语言,这种限制最为严重,因为标准分词器系统性地将词元边界与语素边界错位。我们提出了PACUTE,一个包含4600个任务的诊断基准,旨在评估菲律宾语的形态理解能力。菲律宾语的特点是其能产的中缀插入、重叠和由变音符号驱动的词汇区分,而这些在书面文本中通常被省略。PACUTE包含一个六层级的层次化诊断框架,可定位形态理解在何处发生断裂。通过评估开放权重LLM和前沿商业模型,我们发现无论规模大小,开放权重模型在语素分解上的表现接近随机水平。前沿模型表现好得多,在使用包含匹配评分时通常能恢复单个词缀,但在语素转换和音节划分的组合任务上仍远低于其字符级天花板。这些结果指出,能产的形态组合(而非单纯的字符访问能力)是菲律宾语词汇结构理解的持续瓶颈。

## 1 引言

参见图说明  
图1:PACUTE概览。(A) 菲律宾语形态对标准分词器构成挑战:中缀拆分词根,重叠复制音节,重音变音符号在文本中通常被省略。(B) PACUTE包含四个任务类别,针对词汇结构理解的不同层面。(C) 一个六层级的层次化诊断可定位失败点:模型在字符级任务(L0–L1)上表现高于随机水平,但在语素分解(L2)上跌至随机水平,无论规模如何,下游层级都会继承这种失败。

大型语言模型将文本分割为子词词元,并将其作为原子单元处理,这限制了它们对字符级结构的直接访问。诸如CUTE和LangGame等基准表明,许多LLM在基本词元级任务(如字符计数、字符操作和子串检测)上表现不佳。

#### 菲律宾语给分词器带来了独特的挑战。
我们认为,菲律宾语(菲律宾国语)是评估LLM此类能力的天然(且符合自然语境的)测试平台,原因有二。

#### 能产的非黏着形态。
菲律宾语使用中缀(例如,-um-、-in-)来拆分词根,并使用初始音节的部分重叠。例如,词根kain(“吃”)通过施事焦点中缀-um-插入到第一个辅音之后,变成kumain(“吃了”)。标准的字节对编码分词器对于语言模型预训练来说并非最优,并且经常在忽视语素结构的任意边界处对这些单词进行分割。

#### 省略的重音和声门塞音标记。
菲律宾语正字法可以通过变音符号编码词汇区分:锐音符(pahilís)、钝音符(paiwà)和扬抑符(pakupyâ)。这些构成了最小对立体:bása(“读”)vs. basâ(“湿”);súka(“呕吐”)vs. sukà(“醋”);táyo(“我们”)vs. tayô(“站立”)。然而,日常的菲律宾语文本通常省略这些标记,造成模型无法察觉的系统性词汇歧义。

基于此,我们引入了PACUTE(面向菲律宾语的音位、词缀及字符级词元理解评估),这是一个包含4600个合成任务的基准,针对菲律宾语的组合、操作、形态提取、形态生成和音节划分,每个任务都有多项选择(对数概率)和生成两种格式。PACUTE还包含一个层次化诊断集(六个层级),将先决条件的字符技能与语素级操作分开,从而能够定位瓶颈。我们评估了多个主要开放系列和规模的预训练及指令微调LLM,还在Gemma-2-2B上使用三种预处理/分词方案进行了持续预训练:原始BPE、随机词元扩展(StochasTok),以及一种基于StochasTok的菲律宾语形态感知扩展/收缩方法。我们的结果表明:(i) 在多项选择对数概率评分下,开放权重模型在语素分解上跌至随机水平,尽管在低层级字符任务上表现高于随机水平;(ii) 前沿商业模型通常能恢复单个词缀,但在层级化语素转换和音节划分任务上仍远低于其字符级天花板;菲律宾语相关的预训练对中等规模模型有所提升,而仅靠分词干预带来的收益有限,并可能引发灾难性遗忘。

## 2 相关工作

#### 菲律宾语的相关属性与评估。
语言学文献中,菲律宾语被描述为具有多种非黏着形态过程,包括中缀插入(例如,-um-、-in-)、部分和完全重叠,以及可能通过变音符号编码的重音和声门塞音区别。这些现象与音系结构紧密相关,并且在表面正字法中并不总是透明地体现,尤其是在自然出现的文本中,变音符号经常被省略。因此,菲律宾语中许多具有语言学意义的对比在计算模型通常使用的字符和词元层面上变得模糊。尽管有这些特性,菲律宾语的计算研究主要集中在情感分析、词性标注和命名实体识别等下游NLP任务上。最近的基准BATAYAN拓宽了理解和生成任务的评估覆盖范围,但主要仍是面向任务的,而非针对菲律宾语特定语言结构的诊断性评估。

#### 词元和字符级评估。
在更广泛的文献中,有几项研究针对其他语言引入了词元和字符级的诊断性评估。这些包括基于拼写、正字法相似性和字符级扰动的测试,以及涉及字母计数、前缀或后缀识别以及子串检测的合成任务。CUTE通过字符级操作和基于词元的推理任务系统评估模型的词元组成知识,扩展了这一研究方向。虽然作为通用诊断框架是有效的,但CUTE被设计为语言无关的,并未明确针对非黏着形态或音系驱动的交替变化。诸如SIGMORPHON等形态基准评估多种语言的屈折变化,但侧重于黏着过程和透明的正字法,这些假设对菲律宾语不成立。诸如BPE-dropout等子词分词变体提高了对表面变化的鲁棒性,但评估集中在下游性能而非语言学基础的形态结构上。PACUTE通过针对菲律宾语的音系、词缀化和字符级结构诊断来填补这一空白。

## 3 PACUTE:任务套件

#### 目标。
PACUTE是一个用于菲律宾语词汇结构能力的诊断基准:测试模型是否能够 (i) 访问词元内部的字符级信息,以及 (ii) 利用该信息推理能产的形态(尤其是中缀插入和重叠)。PACUTE的设计主要不是为了通过下游任务衡量通用的菲律宾语“理解能力”;相反,它针对的是构成形态泛化基础的具体、局部的操作。

#### 为什么分词是可能的失败源。
标准子词分词器(如BPE)优化的是压缩和频率统计,而非语素边界的保留。对于菲律宾语,中缀和重叠部分通常位于词元内部,或在词元间不一致地分割,使得它们在预训练和推理过程中难以作为可重用单元被访问。编码词汇重音区别(bása “读” vs. basâ “湿”)的变音符号在数字文本中几乎总是缺失,因此模型面临着词典形式与自然形式之间的系统性不匹配。中缀插入、重叠、形态音位交替以及变音符号省略共同创造了一个环境,其中表面形式的能力不足以支持形态能力(详见附录A)。这激发了PACUTE的两个设计选择:(i) 任务明确要求与形态结构对齐的操作,而不仅仅是通用字符探针;(ii) 一个层次化诊断,将先决条件的字符技能与语素级技能分开,从而能够定位组合流程在何处断裂。

#### 任务格式。
每个PACUTE任务提供两种评估格式。MCQ实例提供四个答案选项(随机正确率 = 25%)。GEN实例要求模型生成一个答案字符串。我们包含两种格式,因为MCQ减少了生成和格式化方面的混淆因素,而GEN则测试模型是否能够可靠地执行操作。两种格式的评分程序在§5中描述。

### 3.1 主套件与覆盖范围
PACUTE主套件包含五个类别的4600个任务,每个类别针对子词能力的不同方面:(i) 组合(950 MCQ + 550 GEN),(ii) 操作(800 MCQ + 800 GEN),(iii) 形态提取(400 MCQ + 400 GEN),(iv) 形态生成(150 MCQ + 150 GEN),(v) 音节划分(200 MCQ + 200 GEN)。组合和操作任务提供字符级控制;形态提取、形态生成和音节划分任务针对菲律宾语特定结构。

#### 组合任务。
组合任务测试模型是否能够使用通常被分词隐藏的正字法信息:字符计数、特定字符/变音符号的识别以及简单的字符串属性。这些是标准字符级探针的菲律宾语改编版本,使用了菲律宾语词汇和(相关情况下)带变音符号的形式。其目的是将“模型能否看穿词元?”与形态特定的推理分开。

#### 操作任务。
操作任务测试确定性的字符操作,如插入、删除、替换和交换。这些任务故意设计为低层级:它们测试模型是否能够执行受控的编辑,这些编辑模拟了词缀插入和重叠所需的机制(即使在词缀任务中,编辑的正确位置是由语言学决定的)。这个类别也作为一个合理性检查:如果模型不能可靠地删除或插入字符,那么形态上的失败可能无法解释。

#### 形态提取与生成任务。
形态任务测试模型能否识别和应用菲律宾语词缀,包括前缀、后缀,以及关键的中缀。提取任务询问能否从屈折形式中识别出哪个词缀、重叠部分或词根(例如,单词kumain → 词根kain + 完成体中缀 -um-)。生成任务给出词根和词缀,要求生成正确的派生形式(例如,将完成体词缀 -in- 应用到 sulat → sinulat)。

#### 音节划分任务。
音节划分任务测试菲律宾语形态所需的音系基础。我们将音节级能力视为原始字符操作与语素级推理之间的中间层级。这个类别包括重音识别任务,要求模型在消歧句子上下文中识别给定单词的重读音节。由于菲律宾语正字法通常省略重音变音符号,重音指派并非易事:许多单词在正字法上相同,但根据哪个音节承载主重音而在音系和语义上不同(例如,sála “罪” vs. salà “过滤器” vs. salâ “破碎”)。因此,模型必须同时使用词汇知识和句子语境来解决重音问题。

#### 层次化诊断基准。
除了主套件,PACUTE还包括一个层次化诊断基准(600 MCQ + 600 GEN),分为六个层级:层级0(字符识别)、层级1(字符操作)、层级2(语素分解)、层级3(语素操作)、层级4(语素组合)、层级5(复杂多步转换)。该层次结构旨在定位失败点:层级3–5假设模型能够将单词分解成语素(层级2)。各层级结果的解释在§5中讨论。

#### 提示与实例结构。
所有实例都使用简短、统一的模板,并带有最少的指令开销。GEN实例使用结构化的XML格式,包含一个推理轨迹,后跟一个`<answer>`块;评估器在评分前仅提取答案。完整的提示细节、聊天模板注入以及思考模式处理在附录B中描述。

## 4 数据构建
所有PACUTE任务均从公开词汇资源和手工整理的注释中确定性生成,未使用任何生成型模型进行内容创作。1这一设计选择基于两个考虑:(i) 避免基准被已存在于LLM预训练语料库中的模式污染,以及 (ii) 确保每个实例都有基于语言学规则而非模型生成文本的可验证标准答案。

表1:按类别和格式划分的PACUTE任务统计。LangGame = 语言无关控制;MDA(多位数加法)= 非语言控制;CUTE = 字符理解控制(仅生成模式)。

#### 词汇资源。
主要来源是来自UP Diksiyonaryong Filipino的按音节划分的单词列表(16,828个条目,带有音节边界、重音和词性),并与菲律宾语语料库频率列表(118,801个形式)配对,用于频率加权采样。形态任务则基于手动整理的屈折数据集(例如,takbo + -um- → tumakbo),同化规则(例如,

相似文章

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。

越南语音中方言变化的语音建模

arXiv cs.CL

本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。