agglutinative-languages

标签

Cards List
#agglutinative-languages

QuechuaTok:形态边界准确率作为黏着型低资源语言分词器评估的必要指标

arXiv cs.CL · 4天前 缓存

本文介绍了QuechuaTok,一个用于评估南克丘亚语分词策略的基准,并引入了形态边界准确率(MorphAcc)作为必要指标。结果表明,BPE实现了低碎片率但形态准确性差,而基于形态感知的PRPE分词器达到了83%的MorphAcc,表明仅凭碎片率不足以评估黏着型语言的分词器。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈