用Toki Pona检验Word2Vec的极限
摘要
本文研究了Word2Vec能否为仅含约130个词汇的人造语言Toki Pona生成有意义的语义嵌入,使用了一个包含140万句子的语料库,并考察了非Toki Pona标记对嵌入质量的影响。
arXiv:2606.17299v1 公告类型:新
摘要:Word2Vec在生成语义嵌入方面的有效性已得到广泛验证,但它的测试几乎完全局限于词汇量大的语言。本研究通过数据从Toki Pona(一种约含130个单词的人造语言)入手,考察Word2Vec能否在词汇量极度缩减的情况下成功捕捉语义关系。我们从Toki Pona社区获取了140万个句子(795万个标记)进行训练。语料中约23%的句子包含非Toki Pona标记,如命名实体、借词和新词。为了探究这种语言噪声是提升还是阻碍性能——这一主题在词嵌入文献中很少被探讨——我们训练了两个不同的模型:一个保留这些偶然标记,另一个将其完全过滤掉。评估采用定量方法(测量单词与语义类别质心的接近度)、通过凝聚聚类自动计算的轮廓分数,以及利用表征相似性矩阵与英语进行对比的定性分析。结果表明,尽管稀疏的非核心标记不影响学习嵌入的相对结构,但实际上它们会使相似单词在向量空间中更加靠近。重要的是,即使在这种极端下限情况下,Word2Vec的有效性更多地取决于分布模式而非词汇表大小。
查看缓存全文
缓存时间: 2026/06/17 05:39
# 探究Word2Vec在道本语中的极限 来源:https://arxiv.org/abs/2606.17299 查看PDF(https://arxiv.org/pdf/2606.17299) > 摘要:Word2Vec在生成语义嵌入方面的有效性已得到广泛验证,但其测试几乎完全集中在词汇量庞大的语言上。本研究利用道本语(一种仅约130个单词的人造语言)的数据,检验Word2Vec能否在词汇极度精简的情况下成功捕捉语义关系。我们从道本语社区收集了140万条句子(795万个词元)用于训练。语料中约23%的句子包含非道本语词元,如命名实体、外来词和新词。为了探究这种语言噪声是提升还是阻碍性能——这一问题在词嵌入文献中鲜有涉及——我们训练了两个不同的模型:一个保留这些附带词元,另一个将其完全过滤掉。评估采用了定量方法(测量词与语义类别质心的接近度)、通过层次聚类自动计算的轮廓系数,以及定性分析(利用表征相似性矩阵与英语对比)。结果表明:稀疏的非核心词元虽然不影响所学嵌入的相对结构,但实际上会使相似词在向量空间中更紧密地聚集。重要的是,即使在这种极端低词汇量的情况下,Word2Vec的有效性更多取决于分布模式,而非词典大小。 ## 提交历史 来自:Daniel Huang [查看邮件 (https://arxiv.org/show-email/e39c3326/2606.17299)] **\[v1\]** 2026年6月15日星期一 21:07:31 UTC(985 KB)
相似文章
面向东北印度低资源藏缅语Kokborok的高质量机器翻译
研究者开发KokborokMT,一款面向低资源语言Kokborok的神经机器翻译系统,通过在36k句对平行语料上微调NLLB-200,在en→trp方向取得17.30 BLEU分,trp→en方向达38.56。
QuechuaTok:形态边界准确率作为黏着型低资源语言分词器评估的必要指标
本文介绍了QuechuaTok,一个用于评估南克丘亚语分词策略的基准,并引入了形态边界准确率(MorphAcc)作为必要指标。结果表明,BPE实现了低碎片率但形态准确性差,而基于形态感知的PRPE分词器达到了83%的MorphAcc,表明仅凭碎片率不足以评估黏着型语言的分词器。
InsightTok:在离散标记化中提升文本与人脸保真度以改进自回归图像生成
InsightTok 引入内容感知的感知损失,改进离散视觉标记化以更好地重建文本和人脸,从而提升自回归图像生成质量。
前沿大模型“口头禅”激增:跨模型系统性分析
首次系统性量化八款顶尖大模型的重复口头禅现象,提出“口头禅指数(VTI)”,发现模型间差异显著且严重损害自然度。
连续性与序数性的重要性:约束时间序列令牌以利用大语言模型进行有效时间序列分析
本文提出COM方法,该方法对时间序列令牌嵌入施加连续性和序数性约束,以提升基于令牌的时间序列大语言模型的性能。