通过WordNet自动对阿英词典词义进行词性标注
摘要
本文提出了一种资源轻量级算法,通过消歧后从英语WordNet转移词性标签,自动为Al-Mawrid阿英双语词典中的词义分配词性标签,以极低成本实现了高准确率。
arXiv:2606.24359v1 Announce Type: new
Abstract: 本文提出了一种对双语词典词义进行词性(POS)标注的算法。该算法应用于Al-Mawrid阿英词典。标注任务通过消歧过程后,将英语翻译等价词(TEs)的词性标签转移至词典词义来完成。词义的英语词性标签来自Princeton WordNet。对双语词典词义进行词性标注是将双语词典链接到WordNet和/或将该词典标准化为WordNet-LMF格式的前提条件,该格式以同义词集(synset)而非单词为基本单元。虽然成本很低,但所记录的准确率很高。构建NLP/HLT工具需要语言学专家、大量投资和长时间。对于统计方法,我们需要大规模标注语料库;对于基于规则的方法,我们需要包含丰富语言和世界知识的大型词典。这促使了所谓的资源轻量级方法的出现,用于开发资源匮乏语言的自然语言处理(NLP)工具。
查看缓存全文
缓存时间: 2026/06/24 07:46
# 通过WordNet自动标注阿拉伯语-英语词典词义词性 来源:https://arxiv.org/abs/2606.24359 查看PDF (https://arxiv.org/pdf/2606.24359) > 摘要:本文提出了一种对双语词典词义进行词性(POS)标注的算法。该算法应用于Al-Mawrid阿拉伯语-英语词典。标注任务通过在消歧后将英语翻译等价词(TE)的词性标签转移至词典词义来完成。词义的英语词性标签来自Princeton WordNet。对双语词典词义进行词性标注是将双语词典链接到WordNet和/或将其标准化为WordNet-LMF格式(其中同义词集而非单词为基本单元)的前提条件。尽管成本低廉,但准确率较高。构建NLP/HLT工具需要语言学专家、大量投资和长时间。对于统计方法,我们需要大规模标注语料库;对于基于规则的方法,我们需要包含丰富语言知识和世界知识的大型词典。这促使了所谓“资源轻量”方法的出现,以开发适用于资源匮乏语言的自然语言处理(NLP)工具。 ## 提交历史 来自:Diaa Fayed [查看邮件 (https://arxiv.org/show-email/94f85ae8/2606.24359)] **\[v1\]** 周二,2026年6月23日 09:49:26 UTC (629 KB)
相似文章
使用解析表达文法构建阿拉伯语-英语机器可读词典
本文提出了一种方法,利用解析表达文法对阿拉伯语-英语Al-Mawrid词典进行结构化处理,将词条转换为适用于自然语言处理应用的层次结构。
使用ISO语言标记框架和TEI Lex-0分析并编码Al-Mawrid阿拉伯语-英语词典
本文介绍了一种使用ISO LMF和TEI Lex-0标准对Al-Mawrid阿拉伯语-英语词典进行数字化的方法,实现了高解析准确率和精确度,填补了阿拉伯语词汇基础设施的空白。
基于大型语言模型的阿拉伯语文本自动评分:文献综述
一篇文献综述,审视了基于LLM的阿拉伯语文本自动评分方法,涵盖简答题评分和作文评分,并提出了一个分类体系和比较分析。
MentalMARBERT:面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调
本文提出了MentalMARBERT,一个面向社交媒体文本中阿拉伯语心理健康障碍检测的领域自适应语言模型。该框架采用领域自适应预训练和两阶段微调方法,在新构建的包含50,670条推文的阿拉伯语心理健康数据集上实现了0.877的准确率和0.861的宏F1分数。
面向低资源口语方言的线性语义分割
本文引入了一个针对低资源阿拉伯语方言的语义分割基准,并提出了一种模型,该模型在会话式语音上的性能优于标准基线模型。