通过WordNet自动对阿英词典词义进行词性标注

arXiv cs.CL 论文

摘要

本文提出了一种资源轻量级算法,通过消歧后从英语WordNet转移词性标签,自动为Al-Mawrid阿英双语词典中的词义分配词性标签,以极低成本实现了高准确率。

arXiv:2606.24359v1 Announce Type: new Abstract: 本文提出了一种对双语词典词义进行词性(POS)标注的算法。该算法应用于Al-Mawrid阿英词典。标注任务通过消歧过程后,将英语翻译等价词(TEs)的词性标签转移至词典词义来完成。词义的英语词性标签来自Princeton WordNet。对双语词典词义进行词性标注是将双语词典链接到WordNet和/或将该词典标准化为WordNet-LMF格式的前提条件,该格式以同义词集(synset)而非单词为基本单元。虽然成本很低,但所记录的准确率很高。构建NLP/HLT工具需要语言学专家、大量投资和长时间。对于统计方法,我们需要大规模标注语料库;对于基于规则的方法,我们需要包含丰富语言和世界知识的大型词典。这促使了所谓的资源轻量级方法的出现,用于开发资源匮乏语言的自然语言处理(NLP)工具。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:46

# 通过WordNet自动标注阿拉伯语-英语词典词义词性
来源:https://arxiv.org/abs/2606.24359
查看PDF (https://arxiv.org/pdf/2606.24359)

> 摘要:本文提出了一种对双语词典词义进行词性(POS)标注的算法。该算法应用于Al-Mawrid阿拉伯语-英语词典。标注任务通过在消歧后将英语翻译等价词(TE)的词性标签转移至词典词义来完成。词义的英语词性标签来自Princeton WordNet。对双语词典词义进行词性标注是将双语词典链接到WordNet和/或将其标准化为WordNet-LMF格式(其中同义词集而非单词为基本单元)的前提条件。尽管成本低廉,但准确率较高。构建NLP/HLT工具需要语言学专家、大量投资和长时间。对于统计方法,我们需要大规模标注语料库;对于基于规则的方法,我们需要包含丰富语言知识和世界知识的大型词典。这促使了所谓“资源轻量”方法的出现,以开发适用于资源匮乏语言的自然语言处理(NLP)工具。

## 提交历史

来自:Diaa Fayed [查看邮件 (https://arxiv.org/show-email/94f85ae8/2606.24359)] **\[v1\]** 周二,2026年6月23日 09:49:26 UTC (629 KB)

相似文章