词根与模式屈折形态学:阿拉伯语破碎复数
摘要
提出了一种新颖的词根与模式模型来描述阿拉伯语名词的屈折形态,重点关注破碎复数,包含160个类别的分类法以及应用于3200个词条的编码方案,旨在改进计算语言资源。
arXiv:2605.22310v1 公告类型:新
摘要:我们提出了一种实质性的阿拉伯语名词屈折形态描述模型,特别关注阿拉伯语语言学家对词典及其他语言资源的管理。其突破在于将传统的闪米特语词根与模式模型反转,变为模式与词根模型,赋予模式优先于词根的地位。我们的模型包括破碎复数(BPs),即通过修改词干形成的复数。它基于闪米特语形态学中词根和模式的传统概念。然而,与传统阿拉伯语形态学相比,它将屈折的形式描述与派生和语义的描述分开。与传统阿拉伯语词典一样,可更新的词典按词元的词条结构组织,参考拼写完全标音。在我们的模型中,阿拉伯文本的形态分析直接使用单词词典进行,无需形态音位规则。我们的名词屈折分类法简单、有序且详细。我们通过将元音数量指定为v或vv并忽略元音质量来简化单数模式的分类法。词根交替和拼写变体独立于模式并以事实方式编码,无需深层词根或形态音位/拼写规则。具有三字母根破碎复数的名词根据22个模式分类,细分为90个类别;具有四字母根破碎复数的名词根据3个模式分类,细分为70个类别。当考虑仅影响单数的屈折变化时,这160个类别变为300个屈折类别。我们提供了一个直接的编码方案,并将其应用于3200个破碎复数名词词条。
查看缓存全文
缓存时间: 2026/05/22 08:46
# 模式-词根屈折形态学:阿拉伯语破碎复数 来源:https://arxiv.org/abs/2605.22310 查看PDF(https://arxiv.org/pdf/2605.22310) > 摘要:我们提出了一种已实质实现的阿拉伯语名词屈折形态学描述模型,特别关注阿拉伯语语言学家管理词典及其他语言资源的方式。其突破在于将传统闪米特语根-模式模型逆向为模式-词根模型,赋予模式相对于词根更高的优先级。我们的模型包含破碎复数(BPs),即通过修改词干构成的复数形式。该模型基于闪米特语形态学中词根与模式的传统概念。然而,与传统阿拉伯语形态学相比,它将屈折的形式描述与派生及语义描述相分离。与传统阿拉伯语词典一致,可更新的词典以词位为条目结构,参考拼写采用全变音符号标注。在我们的模型中,阿拉伯语文本的形态分析直接通过词库完成,无需形态音位规则。我们的名词屈折分类体系简明、有序且详尽。我们通过将元音数量指定为v或vv,并忽略元音质量,简化了单数模式的分类。词根交替与书写变体独立于模式进行客观编码,无需深层词根或形态音位/正字法规则。具有三字母根BPs的名词按22个模式分类,细分为90个类别;具有四字母根BPs的名词按3个模式分类,细分为70个类别。当考虑仅影响单数的屈折变化时,这160个类别扩展为300个屈折类别。我们提供了一种直接编码方案,并将其应用于3200个BP名词条目。 ## 提交历史 来自:Eric Laporte [查看电子邮件(https://arxiv.org/show-email/a630be4c/2605.22310)] **\[v1\]** 2026年5月21日星期四 10:55:48 UTC(1,754 KB)
相似文章
从零构建阿拉伯语NLP:二十年的经验、失败与未解难题
全面回顾二十年阿拉伯语NLP研究,探讨该领域的经验、失败与未解难题。
MORPHOGEN:评估性别感知形态生成的多语言基准
研究者发布 MORPHOGEN,一个多语言基准,用于测试大模型能否在法语、阿拉伯语和印地语中将第一人称句子改写为相反性别,同时保留原意。
当不规则性有所帮助:神经形态学中归纳偏置的子类分析
本文研究了字符级Transformer模型如何泛化到日语过去时屈折中的不规则动词子类型。控制实验表明,包含不规则示例可以改善泛化,挑战了规则性简化学习的假设。
Heuristic Parasites: 大型语言模型中重复扭曲模式的行为分类 (完整系统) V2
本文提出了一个包含33个类别的全面分类法,用于描述大型语言模型输出中的重复扭曲模式(heuristic parasites),并提供了操作定义、识别标准以及一个可复现的测量协议(PPE),用于量化跨对话的行为退化。
RightNow-Arabic-0.5B-Turbo:一款通过词汇注入和边缘优先部署的开源亚10亿参数阿拉伯语语言模型
RightNow-Arabic-0.5B-Turbo 是一款基于 Qwen2.5-0.5B 构建的开源 518M 参数阿拉伯语专用语言模型,通过词汇注入和持续预训练,在阿拉伯语基准测试中取得了有竞争力的性能,同时可通过量化部署在边缘设备上。