MorfFlex:处理丰富的形态学
摘要
本文介绍了MorfFlex,一种适用于具有丰富屈折和派生形态的语言的形态词典架构,以捷克语的MorfFlex CZ为例,该词典包含超过1亿个词形,支持标注一致性和NLP工具。
arXiv:2606.24366v1 公告类型:新
摘要:我们提出了MorfFlex,一种适用于在屈折和派生方面都具有高度规律性的语言的形态词典架构。作为MorfFlex应用的主要示例,我们介绍了MorfFlex CZ,一个捷克语的形态词典。它以简单的、非结构化的<词形,词元,标签>三元组列表形式发布,但其手动维护、未公开的源文件和转换脚本编码了一个复杂的屈折和派生模式系统。这些模式极大地减少了词典原本庞大的规模,目前该词典包含超过1亿个词形和超过100万个词元。MorfFlex CZ词典是确保布拉格依存树库中人工形态标注一致性的重要资源,并支撑着诸如MorphoDiTa等最先进的自动化工具。在本文中,我们重点介绍:(i) 一种在词典内管理丰富形态系统的有效方法,以及(ii) 展示此类语言资源在保持语料库标注一致性和支持高级NLP应用开发方面的实用性。
查看缓存全文
缓存时间: 2026/06/24 07:46
# MorfFlex:处理丰富形态学
来源:https://arxiv.org/html/2606.24366
###### 摘要
我们介绍MorfFlex,一种适用于在屈折和派生方面具有高度规律性的语言的形态词典架构。作为MorfFlex使用的主要示例,我们介绍MorfFlex CZ,一个捷克语形态词典。它以一个简单的、非结构化的三元组列表形式分发,但其手动维护的、未发布的源文件和转换脚本编码了一个复杂的屈折和派生模式系统。这些模式极大地缩小了原本巨大的词典规模,该词典目前包含超过1亿个词形和超过100万个词元。MorfFlex CZ词典是确保布拉格依存树库中手动形态标注一致性的关键资源,并支撑了MorphoDiTa等最先进的自动化工具。在本文中,我们重点介绍:(i) 一种管理词典中丰富形态系统的有效方法,以及 (ii) 展示此类语言资源在维护语料库标注一致性和支持先进自然语言处理应用开发中的实用性。
关键词:形态词典,屈折,派生,语料库
\NAT@set@cites
MorfFlex: Handling Rich Morphology
Jaroslava Hlaváčová, Marie Mikulová, Barbora Štěpánková, Milan Straka, Jan Hajič
Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics
Malostranské náměstí 25, 118 00 Prague 1, Czech Republic
{hlavacova,mikulova,stepankova,straka,hajic}@ufal.mff.cuni.cz
摘要内容
## 1. 引言
在多年的标注工作中,已经开发出许多宝贵的语言资源(语料库和词典),这些资源构成了自然语言处理领域广泛成功应用和工具的基础。然而,如今语言标注的未来正处于传统计算语言学与现代自然语言处理和人工智能方法的交叉点。手动语言标注在应用开发中的作用正在稳步减弱,标注资源仅在特殊情况下才被需要(如果需要的话)。这自然引发了一个问题:在大语言模型时代,手动标注是否仍然有实际用途。凭借几十年来为理论和应用研究开发语言标注资源的经验,我们仍然坚信,形式化、可复用的语言知识来源仍然是计算语言学的一个非常理想的目标。
表1:MorfFlex CZ:动词 `létat`(“飞”)的范式三元组示例。完整范式包含106个三元组和94个唯一词形(某些词形是同形异义的,例如本例中的 `létaly`)。
在本文中,我们介绍了MorfFlex CZ,111https://ufal.mff.cuni.cz/morfflex 一个捷克语形态词典,捷克语是一种高度屈折的语言。该词典最初由Jan Hajič在20世纪80年代末开发(Hajič, 2004 (https://arxiv.org/html/2606.24366#bib.bib9)),作为拼写检查器的基础。后来,它被改编用于商业应用,特别是为了支持更高效的文本搜索而进行的词元化(Hajič and Drozd, 1990 (https://arxiv.org/html/2606.24366#bib.bib15))。随后,该词典成为布拉格依存树库中170万个词元手动形态标注的关键资源,这是一个开创性的项目,也是最早创建的树库和工具之一。甚至在2001年正式发布(Hajič et al., 2001 (https://arxiv.org/html/2606.24366#bib.bib11))之前,一个较早的版本(在形态和句法层都进行了标注,包含约40万个词)就于1998年在约翰霍普金斯大学的一个研讨会上被使用。该语料库数据为第一个统计标注器(Hajič et al., 1998 (https://arxiv.org/html/2606.24366#bib.bib14))和句法分析器(Collins et al., 1999 (https://arxiv.org/html/2606.24366#bib.bib6); Charniak, 2000 (https://arxiv.org/html/2606.24366#bib.bib4))提供了训练材料。迄今为止,该词典继续被开发和手动维护,主要作为确保布拉格依存树库中手动形态标注一致性的关键资源。最新版本是MorfFlex CZ 2.1222http://hdl.handle.net/11234/1-5833 (Hajič et al., 2024b (https://arxiv.org/html/2606.24366#biba.bib2)),与布拉格依存树库-整合版2.0的标注完全兼容(Hajič et al., 2024a (https://arxiv.org/html/2606.24366#biba.bib1); Mikulová et al., 2026 (https://arxiv.org/html/2606.24366#bib.bib20))。它也是MorphoDiTa等最先进自动化工具的基础(Straková et al., 2014 (https://arxiv.org/html/2606.24366#bib.bib27);见第6节 (https://arxiv.org/html/2606.24366#S6))。
表2:MorfFlex CZ 2.1中唯一词元和三元组的数量。
MorfFlex CZ的架构专为具有大量词尾(后缀)的屈折语言设计。我们将这种架构——后来应用于其他具有丰富屈折形态的语言(见第6节 (https://arxiv.org/html/2606.24366#S6))——简称为MorfFlex。在屈折语言中,单词通过添加词尾来标记语法格、数、性、时态等。因此,许多词形可能关联到同一个词元。例如,捷克语单词 `létat`(“飞”)可以出现为 `létám`(“我正在飞”)、`nelétám`(“我不再飞”)、33`létáš`(“你正在飞”)、`letáme`(“我们正在飞”)、`létejme`(“让我们飞”)、`létalo`(“它飞了”)、`létali`(“他们飞了”)等——这类动词有几十种词形。就语料库而言(在布拉格依存树库-整合版2.0发布版中),在一个近400万词元的语料库中,有23万个唯一词形和9.7万个词元(见表3 (https://arxiv.org/html/2606.24366#S1.T3))。因此,有效地处理词尾并在存在规律性时降低处理成本至关重要。该词典以纯非结构化三元组列表的形式分发(如表1 (https://arxiv.org/html/2606.24366#S1.T1)所示)。然而,手动维护的、未发布的源文件和转换脚本实际上代表了一个复杂的屈折和派生模式及规则系统,该大大缩小了原本巨大的词典规模。如今,该词典包含超过1亿个词形和超过100万个词元(见表2 (https://arxiv.org/html/2606.24366#S1.T2))。我们在https://github.com/ufal/morfflex-generator 以开源许可证发布了将源格式扩展为基本三元组的工具。
在本文中,我们描述了捷克语形态词典MorfFlex CZ,并重点介绍:
- •一种在词典中有效处理屈折语言丰富形态系统的方法,
- •此类语言资源在确保语料库形态标注一致性和开发自然语言处理应用中的实用性。
本文组织如下。第2节 (https://arxiv.org/html/2606.24366#S2)简要概述了计算形态学的相关背景。第3节 (https://arxiv.org/html/2606.24366#S3)介绍了MorfFlex中处理丰富形态的系统。第4节 (https://arxiv.org/html/2606.24366#S4)更详细地描述了系统的格式:未发布的源格式(第4.1节 (https://arxiv.org/html/2606.24366#S4.SS1))、中间格式(第4.2节 (https://arxiv.org/html/2606.24366#S4.SS2))以及词典分发时所采用的基本格式(第4.3节 (https://arxiv.org/html/2606.24366#S4.SS3))。第5节 (https://arxiv.org/html/2606.24366#S5)描述了从源格式转换为中间格式(第5.1节 (https://arxiv.org/html/2606.24366#S5.SS1))再转换为基本格式(第5.2节 (https://arxiv.org/html/2606.24366#S5.SS2))的过程。直接路径在第5.3节 (https://arxiv.org/html/2606.24366#S5.SS3)中描述。词典的使用在第6节 (https://arxiv.org/html/2606.24366#S6)中描述。我们在第7节 (https://arxiv.org/html/2606.24366#S7)中得出结论。
表3:布拉格依存树库-整合版2.0发布版中唯一词形和词元的数量。
## 2. 相关工作
在自然语言处理语境中,形态学主要用于开发识别词形之间关系的工具(形态分析器,例如Voikko,444https://voikko.puimula.org/ Hunmorph (Trón et al., 2005 (https://arxiv.org/html/2606.24366#bib.bib29)))或相关词之间的工具(派生工具,例如Sánchez Gutiérrez et al., 2017 (https://arxiv.org/html/2606.24366#bib.bib28))。许多这些工具最初是为拼写检查目的而创建的(例如英语的SCOWL(面向拼写检查器的词表))。555http://wordlist.aspell.net/dicts/ 对于具有丰富屈折结构、全面列出不切实际的语言,使用词元/词根与屈折形式的组合(例如,拉丁语的Collatinus,666https://outils.biblissima.fr/en/collatinus-web/ 捷克语的Ajka,777https://nlp.fi.muni.cz/projects/ajka/ 或波兰语的Polimorf,888https://zil.ipipan.waw.pl/PoliMorf 详细描述见Crane, 1991 (https://arxiv.org/html/2606.24366#bib.bib7), Osolsobě, 1996 (https://arxiv.org/html/2606.24366#bib.bib22), Paikens et al., 2024 (https://arxiv.org/html/2606.24366#bib.bib23))。形态词典通常与语料库的编纂同时创建,使用手动或半手动标注,对于斯拉夫语言,参见例如Dobrovoljc et al., 2018 (https://arxiv.org/html/2606.24366#bib.bib8)和Ljubešić, 2019 (https://arxiv.org/html/2606.24366#bib.bib18)。此外,也在努力统一形态特征并创建一致的形态学方法(例如Unimorph999https://unimorph.github.io/ (Batsuren et al., 2022 (https://arxiv.org/html/2606.24366#bib.bib2)); Paralex101010https://www.paralex-standard.org/ (Beniamine et al., 2023 (https://arxiv.org/html/2606.24366#bib.bib3)))。
## 3. 形态词典MorfFlex
MorfFlex词典是一个三元组列表。词元111尽管词元通常被视为一个抽象对象,但在MorfFlex中,它总是以一个人类可读的词形式表达。是词形的基本形式(通常是通用词典中用作词条的形式)。标签编码了词形的形态属性。具有相同词元的所有词形的集合称为范式。词元通常被视为整个范式的代表。例如,英语词形 `fly` 属于由词元 `fly` 代表的范式。与词元 `fly` 相关联的整个范式是集合 {fly, flies, flew, flying, flown}。捷克语的范式通常要大得多,因为捷克语有丰富的屈折变化。英语 `fly` 的捷克语对应词,即动词 `létat`,在MorfFlex CZ词典中拥有94个唯一词形(包括30个罕见的古旧词形;见表1 (https://arxiv.org/html/2606.24366#S1.T1))。
三元组集合必须遵守所谓的形态学黄金法则(Hlaváčová, 2017 (https://arxiv.org/html/2606.24366#bib.bib16); Mikulová et al., 2020 (https://arxiv.org/html/2606.24366#bib.bib21)),该法则规定,在整个词典中,任何特定的 对只能出现在一个三元组中。换句话说,一个 <词根, 结尾> 对不能用于描述多个词形。这保证了从 <词根, 结尾> 对生成词形是明确的。我们应用标签编号来区分不同类型的词形变体(例如,标准词形 `nelétají`(“他们不在飞”)和非标准词形 `nelétaj`(“他们不在飞”)在表1 (https://arxiv.org/html/2606.24366#S1.T1)中)。
形态词典的三元组可用于生成和分析词形。基于 <词根, 结尾> 对,生成一个单一的词形,如前所述。相反的任务,分析,将一组 <词根, 结尾> 对分配给给定的词形。在后一种情况下,可能存在(通常确实存在)多个这样的对,因为捷克语中存在大量的同形异义现象。例如,形态分析将两个 <词根, 结尾> 对分配给词形 `létaly`(见表1 (https://arxiv.org/html/2606.24366#S1.T1))。
我们在这里想要展示的是,对于捷克语和其他具有高度规律性(在屈折和/或派生方面)的高度屈折语言,可以使用模式(一组规则)来描述范式,以自动生成整个范式(以三元组形式)。使用模式可以大大缩小词典的规模。对于人类维护者来说,也更容易理解。对于各种应用,形态词典最便捷的格式是三胞胎格式。我们称之为基本格式。另一方面,存储和维护词典最便捷的格式是包含模式的格式,即所谓的源格式。从源格式生成基本格式并不简单。在大多数情况下,源格式的每条记录首先被转换为虚拟中间格式的一组记录,然后再转换为基本格式。这种转换是通过由源格式和中间格式中的模式触发的规则来执行的。整个过程如图1 (https://arxiv.org/html/2606.24366#S3.F1)所示。
源格式中的模式是派生的。1212所谓的平凡模式(见第5.3节 (https://arxiv.org/html/2606.24366#S5.SS3))是一个例外。它们用于:
1. 1. 创建派生词(新词),特别是它们的词元
2. 2. 为每个派生词元分配屈折模式
中间格式中的模式是屈折的。它们用于:
1. 1. 生成与词元关联的词形
2. 2. 分配描述每个词形形态属性的标签
因此,没有必要在词典中包含一些(实际上,许多)单词;它们是通过针对大型词集的规则模式派生出来的。例如,源格式中有一个记录对应于动词 `létat`(“飞”)(见表4 (https://arxiv.org/html/2606.24366#S4.T4)的第一行)。它的派生模式(ATN)“翻译”成中间格式的20条记录(见表5 (https://arxiv.org/html/2606.24366#S4.T5)中的示例)。在这里,为每个新的派生词元分配一个屈折模式。这个过程不仅能够创建原始动词 `létat`(“飞”)的整个范式,还能创建派生词的范式,例如 `létávat`(“习惯飞”)、`létání`(“飞行” – 名词)、`létající`(“飞行的” – 形容词)等。因此,从源格式中动词 `létat`(“飞”)的单个行,自动生成基本格式的3,096个三元组(见表1 (https://arxiv.org/html/2606.24366#S1.T1)中的示例)。
参考标题
图1:MorfFlex 方案。有三种格式:源格式、中间格式和基本格式。在源格式中,使用两种记录类型。上面的类型包含一个派生模式。根据派生模式的特定规则,该记录被转换为中间虚拟格式的一条或多条记录,如中间列示意所示。派生模式被一组屈折模式替换,创建新的词根,并且词元也会更改。每一个相似文章
利用形态学进行历史文字计量分析
本文提出了一种基于Transformer的架构,结合原型学习,仅利用行级转录即可从历史文档中进行可扩展的古文字测量,并在仅有少量训练数据的160页手抄本上证明了其有效性。
MORPHOGEN:评估性别感知形态生成的多语言基准
研究者发布 MORPHOGEN,一个多语言基准,用于测试大模型能否在法语、阿拉伯语和印地语中将第一人称句子改写为相反性别,同时保留原意。
Morpheus:一种面向土耳其语的形态感知神经分词器与词嵌入器
本文提出Morpheus,一种面向土耳其语的神经分词器与词嵌入器,它在无需字符串归一化的情况下学习语素边界,实现了无损分词并在词汇检索中获得了具有竞争力的嵌入表示,同时比子词分词器使用更少的GPU内存。
面向类型学可控词汇生成的模块化架构
本文提出了一种模块化框架,用于生成可发音、类型学上合理且语义结构化的工词汇,该框架使用来自PHOIBLE的音位清单和概率语法,优于确定性基线方法。
Prague Dependency Treebank -- 整合版 2.0:丰富复杂标注方案
我们介绍了Prague Dependency Treebank的第二个整合版本,这是一个400万词的人工多语言标注资源,涵盖形态、句法、语义、共指和话语,以及兼容的词典。