词根与模式屈折形态学：阿拉伯语破碎复数

arXiv cs.CL 2026/05/22 04:00 论文

摘要

提出了一种新颖的词根与模式模型来描述阿拉伯语名词的屈折形态，重点关注破碎复数，包含160个类别的分类法以及应用于3200个词条的编码方案，旨在改进计算语言资源。

arXiv:2605.22310v1 公告类型：新摘要：我们提出了一种实质性的阿拉伯语名词屈折形态描述模型，特别关注阿拉伯语语言学家对词典及其他语言资源的管理。其突破在于将传统的闪米特语词根与模式模型反转，变为模式与词根模型，赋予模式优先于词根的地位。我们的模型包括破碎复数（BPs），即通过修改词干形成的复数。它基于闪米特语形态学中词根和模式的传统概念。然而，与传统阿拉伯语形态学相比，它将屈折的形式描述与派生和语义的描述分开。与传统阿拉伯语词典一样，可更新的词典按词元的词条结构组织，参考拼写完全标音。在我们的模型中，阿拉伯文本的形态分析直接使用单词词典进行，无需形态音位规则。我们的名词屈折分类法简单、有序且详细。我们通过将元音数量指定为v或vv并忽略元音质量来简化单数模式的分类法。词根交替和拼写变体独立于模式并以事实方式编码，无需深层词根或形态音位/拼写规则。具有三字母根破碎复数的名词根据22个模式分类，细分为90个类别；具有四字母根破碎复数的名词根据3个模式分类，细分为70个类别。当考虑仅影响单数的屈折变化时，这160个类别变为300个屈折类别。我们提供了一个直接的编码方案，并将其应用于3200个破碎复数名词词条。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:46

# 模式-词根屈折形态学：阿拉伯语破碎复数
来源：https://arxiv.org/abs/2605.22310
查看PDF（https://arxiv.org/pdf/2605.22310）

> 摘要：我们提出了一种已实质实现的阿拉伯语名词屈折形态学描述模型，特别关注阿拉伯语语言学家管理词典及其他语言资源的方式。其突破在于将传统闪米特语根-模式模型逆向为模式-词根模型，赋予模式相对于词根更高的优先级。我们的模型包含破碎复数（BPs），即通过修改词干构成的复数形式。该模型基于闪米特语形态学中词根与模式的传统概念。然而，与传统阿拉伯语形态学相比，它将屈折的形式描述与派生及语义描述相分离。与传统阿拉伯语词典一致，可更新的词典以词位为条目结构，参考拼写采用全变音符号标注。在我们的模型中，阿拉伯语文本的形态分析直接通过词库完成，无需形态音位规则。我们的名词屈折分类体系简明、有序且详尽。我们通过将元音数量指定为v或vv，并忽略元音质量，简化了单数模式的分类。词根交替与书写变体独立于模式进行客观编码，无需深层词根或形态音位/正字法规则。具有三字母根BPs的名词按22个模式分类，细分为90个类别；具有四字母根BPs的名词按3个模式分类，细分为70个类别。当考虑仅影响单数的屈折变化时，这160个类别扩展为300个屈折类别。我们提供了一种直接编码方案，并将其应用于3200个BP名词条目。

## 提交历史

来自：Eric Laporte [查看电子邮件（https://arxiv.org/show-email/a630be4c/2605.22310）] **\[v1\]** 2026年5月21日星期四 10:55:48 UTC（1,754 KB）

词根与模式屈折形态学：阿拉伯语破碎复数

相似文章

从零构建阿拉伯语NLP：二十年的经验、失败与未解难题

MORPHOGEN：评估性别感知形态生成的多语言基准

当不规则性有所帮助：神经形态学中归纳偏置的子类分析

Heuristic Parasites: 大型语言模型中重复扭曲模式的行为分类 (完整系统) V2

RightNow-Arabic-0.5B-Turbo：一款通过词汇注入和边缘优先部署的开源亚10亿参数阿拉伯语语言模型

提交意见反馈