用Toki Pona检验Word2Vec的极限

arXiv cs.CL 论文

摘要

本文研究了Word2Vec能否为仅含约130个词汇的人造语言Toki Pona生成有意义的语义嵌入,使用了一个包含140万句子的语料库,并考察了非Toki Pona标记对嵌入质量的影响。

arXiv:2606.17299v1 公告类型:新 摘要:Word2Vec在生成语义嵌入方面的有效性已得到广泛验证,但它的测试几乎完全局限于词汇量大的语言。本研究通过数据从Toki Pona(一种约含130个单词的人造语言)入手,考察Word2Vec能否在词汇量极度缩减的情况下成功捕捉语义关系。我们从Toki Pona社区获取了140万个句子(795万个标记)进行训练。语料中约23%的句子包含非Toki Pona标记,如命名实体、借词和新词。为了探究这种语言噪声是提升还是阻碍性能——这一主题在词嵌入文献中很少被探讨——我们训练了两个不同的模型:一个保留这些偶然标记,另一个将其完全过滤掉。评估采用定量方法(测量单词与语义类别质心的接近度)、通过凝聚聚类自动计算的轮廓分数,以及利用表征相似性矩阵与英语进行对比的定性分析。结果表明,尽管稀疏的非核心标记不影响学习嵌入的相对结构,但实际上它们会使相似单词在向量空间中更加靠近。重要的是,即使在这种极端下限情况下,Word2Vec的有效性更多地取决于分布模式而非词汇表大小。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:39

# 探究Word2Vec在道本语中的极限
来源:https://arxiv.org/abs/2606.17299
查看PDF(https://arxiv.org/pdf/2606.17299)

> 摘要:Word2Vec在生成语义嵌入方面的有效性已得到广泛验证,但其测试几乎完全集中在词汇量庞大的语言上。本研究利用道本语(一种仅约130个单词的人造语言)的数据,检验Word2Vec能否在词汇极度精简的情况下成功捕捉语义关系。我们从道本语社区收集了140万条句子(795万个词元)用于训练。语料中约23%的句子包含非道本语词元,如命名实体、外来词和新词。为了探究这种语言噪声是提升还是阻碍性能——这一问题在词嵌入文献中鲜有涉及——我们训练了两个不同的模型:一个保留这些附带词元,另一个将其完全过滤掉。评估采用了定量方法(测量词与语义类别质心的接近度)、通过层次聚类自动计算的轮廓系数,以及定性分析(利用表征相似性矩阵与英语对比)。结果表明:稀疏的非核心词元虽然不影响所学嵌入的相对结构,但实际上会使相似词在向量空间中更紧密地聚集。重要的是,即使在这种极端低词汇量的情况下,Word2Vec的有效性更多取决于分布模式,而非词典大小。

## 提交历史

来自:Daniel Huang [查看邮件 (https://arxiv.org/show-email/e39c3326/2606.17299)] **\[v1\]** 2026年6月15日星期一 21:07:31 UTC(985 KB)

相似文章