用Toki Pona检验Word2Vec的极限

arXiv cs.CL 2026/06/17 04:00 论文

word2vec embeddings toki-pona constructed-language vocabulary semantic-embeddings nlp

摘要

本文研究了Word2Vec能否为仅含约130个词汇的人造语言Toki Pona生成有意义的语义嵌入，使用了一个包含140万句子的语料库，并考察了非Toki Pona标记对嵌入质量的影响。

arXiv:2606.17299v1 公告类型：新摘要：Word2Vec在生成语义嵌入方面的有效性已得到广泛验证，但它的测试几乎完全局限于词汇量大的语言。本研究通过数据从Toki Pona（一种约含130个单词的人造语言）入手，考察Word2Vec能否在词汇量极度缩减的情况下成功捕捉语义关系。我们从Toki Pona社区获取了140万个句子（795万个标记）进行训练。语料中约23%的句子包含非Toki Pona标记，如命名实体、借词和新词。为了探究这种语言噪声是提升还是阻碍性能——这一主题在词嵌入文献中很少被探讨——我们训练了两个不同的模型：一个保留这些偶然标记，另一个将其完全过滤掉。评估采用定量方法（测量单词与语义类别质心的接近度）、通过凝聚聚类自动计算的轮廓分数，以及利用表征相似性矩阵与英语进行对比的定性分析。结果表明，尽管稀疏的非核心标记不影响学习嵌入的相对结构，但实际上它们会使相似单词在向量空间中更加靠近。重要的是，即使在这种极端下限情况下，Word2Vec的有效性更多地取决于分布模式而非词汇表大小。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:39

# 探究Word2Vec在道本语中的极限
来源：https://arxiv.org/abs/2606.17299
查看PDF（https://arxiv.org/pdf/2606.17299）

> 摘要：Word2Vec在生成语义嵌入方面的有效性已得到广泛验证，但其测试几乎完全集中在词汇量庞大的语言上。本研究利用道本语（一种仅约130个单词的人造语言）的数据，检验Word2Vec能否在词汇极度精简的情况下成功捕捉语义关系。我们从道本语社区收集了140万条句子（795万个词元）用于训练。语料中约23%的句子包含非道本语词元，如命名实体、外来词和新词。为了探究这种语言噪声是提升还是阻碍性能——这一问题在词嵌入文献中鲜有涉及——我们训练了两个不同的模型：一个保留这些附带词元，另一个将其完全过滤掉。评估采用了定量方法（测量词与语义类别质心的接近度）、通过层次聚类自动计算的轮廓系数，以及定性分析（利用表征相似性矩阵与英语对比）。结果表明：稀疏的非核心词元虽然不影响所学嵌入的相对结构，但实际上会使相似词在向量空间中更紧密地聚集。重要的是，即使在这种极端低词汇量的情况下，Word2Vec的有效性更多取决于分布模式，而非词典大小。

## 提交历史

来自：Daniel Huang [查看邮件 (https://arxiv.org/show-email/e39c3326/2606.17299)] **\[v1\]** 2026年6月15日星期一 21:07:31 UTC（985 KB）

用Toki Pona检验Word2Vec的极限

相似文章

面向东北印度低资源藏缅语Kokborok的高质量机器翻译

QuechuaTok：形态边界准确率作为黏着型低资源语言分词器评估的必要指标

InsightTok：在离散标记化中提升文本与人脸保真度以改进自回归图像生成

前沿大模型“口头禅”激增：跨模型系统性分析

连续性与序数性的重要性：约束时间序列令牌以利用大语言模型进行有效时间序列分析

提交意见反馈