Morpheus:一种面向土耳其语的形态感知神经分词器与词嵌入器
摘要
本文提出Morpheus,一种面向土耳其语的神经分词器与词嵌入器,它在无需字符串归一化的情况下学习语素边界,实现了无损分词并在词汇检索中获得了具有竞争力的嵌入表示,同时比子词分词器使用更少的GPU内存。
arXiv:2606.18717v1 公告类型:新提交
摘要:土耳其语是黏着语:意义由语素承载,然而驱动现代语言模型的子词分词器却根据语料库统计切分单词,碎片化承载语义的后缀——在WordPiece和基于规则的分析器的情况下,无法将其输出解码回原始文本。本文提出 **Morpheus**,一种面向土耳其语的神经语素边界模型,它同时是一个无损的、形态感知的分词器和一个词嵌入生成器。一个可微的泊松-二项式动态规划在训练时将每个字符的边界概率转化为软语素隶属度,在推理时转化为精确的片段,无需字符串归一化,因此 $\mathrm{decode}(\mathrm{encode}(w)) = w$ 由构造保证。由于模型是神经网络的,相同的正向传递在分词的同时也输出结构化的词嵌入。在可逆分词器(唯一有效的生成模型)中,Morpheus 达到了最低的每字符比特数(1.425),将子词家族的形态对齐大致翻倍(MorphScore 宏F1 0.61 对比 ${\sim}0.32$),并且比64K词汇量的子词分词器节省约19%的GPU内存。作为嵌入器,冻结的Morpheus向量在词汇检索(根家族MAP 0.85)和同根验证(ROC-AUC 1.00)上领先,超越了多语言检索器BGE-M3和BERTurk;在依赖上下文和屈折变化的任务(NER、格/数探针)上,更重的上下文编码器仍然领先——我们将这一权衡归因于Morpheus以词根为中心的几何结构。代码:https://github.com/lonewolf-rd/TurkishMorpheus;模型:https://huggingface.co/lonewolflab/Morpheus-TR-50K;交互式演示:https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo。
查看缓存全文
缓存时间: 2026/06/18 05:45
# Morpheus:一种形态感知的土耳其语神经分词器与词嵌入器 来源:https://arxiv.org/html/2606.18717 ###### 摘要 土耳其语是黏着语:其意义由语素承载,然而驱动现代语言模型的子词分词器根据语料库统计信息切分词汇,将承载语义的后缀碎片化——在WordPiece和基于规则的分析器中,甚至无法将输出解码回原始文本。本文提出**Morpheus**,一种面向土耳其语的神经语素边界模型,它同时实现了无损、形态感知的分词器和词嵌入生成器。一个可微分的泊松-二项动态规划将逐字符边界概率转化为训练时的软语素隶属关系,并在推理时给出精确的硬边界,无需字符串规范化,因此`decode(encode(w)) = w` 在构造上成立。由于该模型是神经模型,执行分词的前向传播同样会输出一个结构化的词嵌入。在可逆分词器(唯一适合生成任务的分词器)中,Morpheus 达到了最低的每字符比特数 (1.425),将子词家族的黄金形态对齐指标 (MorphScore macro-F1) 从约 0.32 提升到 0.61,并且比 64K 词汇量的子词分词器节省约 19% 的 GPU 内存。作为嵌入器,冻结的 Morpheus 向量在词根族检索 (MAP 0.85) 和同根验证 (ROC-AUC 1.00) 上领先,超越了多语言检索器 BGE-M3 和 BERTurk;在依赖上下文和屈折变化的任务(命名实体识别、格/数探针)上,更重的上下文编码器仍然领先——我们将此归因于 Morpheus 以词根为中心的几何结构。代码:https://github.com/lonewolf-rd/TurkishMorpheus;模型:https://huggingface.co/lonewolflab/Morpheus-TR-50K;交互式演示:https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo。 Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish Şakar, Tolga 独立研究员 [email protected] ## 1 引言 土耳其语是一种黏着语,其大部分语义内容通过词根上富有生产力的派生和屈折后缀链来编码;单个词根可以通过其语素顺序展开成数百种不同的表层形式(例如 `ev` "房子" → `evlerimizdekiler` "我们房子里的那些")。因此,在土耳其语中,承载意义的单位是语素,而不是词,也不是基于频率的词片段。这一特性对现代土耳其语自然语言处理的机制提出了两个不同的要求——一个关乎**分词**,一个关乎**词汇表示**——并且,如下文所述,当前的工具只能部分满足这两个要求。 #### 分词问题。 诸如 BPE、WordPiece 和 Unigram (Sennrich et al., 2016; Kudo and Richardson, 2018) 等子词分词器根据语料库统计信息而非形态学来切分词汇,这在土耳其语上导致了两个具体失败。首先,几种广泛使用的分词器是**不可逆的**:将 ID 解码回文本无法恢复原始字符串。WordPiece 会去除土耳其语变音符号(ç, ğ, ı, ö, ş, ü),而基于规则的 TurkishTokenizer 会应用规范性的再和谐化,因此相当一部分屈折词无法被重构。在生成式大语言模型中,每个生成的 token ID 必须解码为忠实文本时,这种损失直接破坏了模型输出,并悄悄降低了任何读取解码字符串的任务的性能。其次,由于承载语义的后缀被随意地切断,词被过度碎片化:每个词产生的 token 更多(更高的生育率),这会增加序列长度、计算量和训练及推理时的内存消耗。无监督的形态分割器(如 Morfessor (Creutz and Lagus, 2007))和基于规则的分析器(如 Zemberek (Akın and Akın, 2007))解决了形态对齐方面的问题,但前者不是为语言建模优化的,后者是有损且受词典限制的。简而言之,现有的分词器各自解决了部分问题——要么可逆性,要么形态对齐,要么低生育率——但没有一个能同时解决所有三个问题。 #### 表示问题。 同样的形态丰富性也给土耳其语的词汇表示带来了压力。诸如 BERTurk (Schweter, 2020) 等上下文编码器提供了强大的嵌入,但它们很重(约 1.1 亿+参数),绑定在自己有损的子词词汇表上,并且仅隐式地处理形态学。一种在构造上(而非在大量预训练之后)就能使形态相关的形式(`kitap`、`kitaplar`、`kitabımız`)自然地聚合在一起的表示方法仍然缺乏。更根本的是,分词和表示目前由**两个独立的系统**解决:分词器产生无意义的离散 ID,而必须训练一个独立的、大得多的模型来将这些 ID 转换为向量。对于黏着语来说,良好分词所需的边界信息与良好表示所需的结构是同一个形态信号,这种分离是浪费的。 #### 本文。 综上所述,这些差距促使我们开发一个统一的土耳其语模型,它同时是一个**无损、形态感知的分词器**和一个**结构化的词嵌入生成器**。本文旨在提供这样的模型,并介绍 **Morpheus**,一个面向土耳其语的神经语素边界模型。Morpheus 将无监督分析器(Morfessor)的边界监督与自监督目标(skip-gram 负采样、词根族对比学习和掩码语言建模)相结合,并通过一个可微分的泊松-二项动态规划来切分词:训练时梯度流过软语素隶属关系,而推理时无需架构切换和字符串规范化,即可恢复精确的硬边界。由于没有应用规范化,发出的片段就是表层形式本身,因此 `decode(encode(w)) = w` 在构造上成立。并且由于该模型是神经模型,执行分词的前向传播同样会为每个词产生一个结构化的 R^320 嵌入作为副产品——这使得 Morpheus 同时成为一个分词器和一个词嵌入模型。 本文的贡献如下: - • **Morpheus**,一个面向土耳其语的神经形态感知分词器,通过可微分的泊松-二项软分割统一训练和推理,无需推理时规范化即可实现无损。 - • 证明了**同一个模型**是词嵌入生成器,并在词根族检索、词汇去重、形态探针和土耳其语 NER 任务上,针对上下文编码器 (BERTurk) 和强大的多语言检索器 (BGE-M3) 进行了评估——刻画了形态学衍生的嵌入在哪些方面有帮助,哪些方面没有。 - • 一个全面的评估套件——可逆性、MorphScore、SIGMORPHON、表层忠实度、以及语言建模的每字符比特数——清晰地在无损与有损之间建立了区分,并体现了与子词家族及现有土耳其语分词器的对比。 ## 2 相关工作 #### 子词分词及其对土耳其语的局限性。 通过 SentencePiece (Kudo and Richardson, 2018) 大规模实现的 BPE (Sennrich et al., 2016)、WordPiece (Devlin et al., 2019) 和 Unigram (Kudo, 2018) 是文本与现代语言模型之间事实上的接口。越来越多的研究表明,这种基于频率的设计对于土耳其语等形态丰富的语言并非中立。Toraman 等人 (2023) 比较了五种不同粒度的分词器,发现形态层面的分词器与事实上的分词器相比具有竞争力,同时对词汇量大小的反应更强烈,并且词汇量与模型参数的比例本身就是一个设计变量。Kaya 和 Tantuğ (2024) 研究了土耳其语 BERT 模型在 NER、情感分析和问答任务中的词汇量大小,Altinok (2026) 则在匹配参数预算下,对数据-词汇-形态的相互影响进行了系统评估,并提出了形态感知的诊断指标(边界 F1、词素原子性、过分割/欠分割)。这些研究量化了基于频率分割的成本;Morpheus 则从其根源着手,通过学习语素边界的神经模型来应对这一问题。 #### 形态感知和语言学信息分词器。 无监督的 Morfessor 家族 (Creutz and Lagus, 2002, 2007) 通过最小描述长度目标诱导出类似语素的单元,并且仍然是黏着语的标准分割基线;我们将其用作 Morpheus 的边界教师。基于规则的分析器(如 Zemberek (Akın and Akın, 2007))显式编码土耳其语形态学,但受词典限制。最近的土耳其语特定分词器以不同方式改进了语言对齐:Bayram 等人 (2025a) 提出了一种混合分词器 (TurkishTokenizer),它结合了词典驱动的词根/词缀分割、音位规范化(将语素变体映射到共享标识符)以及子词回退策略,报告了高土耳其语 token 和纯度率,以及在 STS 和 TurBLiMP 上的竞争性结果;Gulgonul (2025) 利用土耳其语封闭音节库存开发了一种轻量、面向检索的分词器。这些方法提高了形态对齐,但代价是运行时规范化(丢弃表层信息,例如将语素变体映射到规范 ID)或固定词典和音节库存。Morpheus 在两个轴上有所不同:它通过神经学习而非词典学习边界,并且不应用规范化,因此分割保留表层且完全可逆——同时,独一无二的是,同一个模型也能产生词嵌入。 #### 土耳其语分词器的评估标准。 Bayram 等人 (2025b) 及其会议版本 (Bayram et al., 2025c) 引入了 TR-MMLU 基准测试以及土耳其语 token (%TR) 和纯 token (%Pure) 指标,认为 token 的语言对齐与下游性能的相关性比原始 token 纯度更强。我们采用 %TR/%Pure 协议进行词汇级别比较,并用先前比较中大多忽略的指标来补充:精确的可逆性、黄金语素 F1 (MorphScore)、SIGMORPHON 屈折对齐、表层字符串忠实度、以及在参数均衡的语言模型预算下的每字符比特数。这些指标共同清晰地揭示了无损与有损之间的轴线,正如我们将要展示的,这区分了适合生成任务的分词器与不适合生成任务的分词器。 #### 土耳其语词汇表示与分词器-嵌入之间的差距。 在表示方面,BERTurk (Schweter, 2020) 提供了强大的上下文土耳其语嵌入,最近的工作将多语言编码器适应于土耳其语——例如,Bayram 等人 (2026) 进行跨语言分词器手术和离线蒸馏以构建土耳其语句子嵌入模型,而诸如 BGE-M3 (Chen et al., 2024) 等通用多语言检索器开箱即用即可在土耳其语上具有竞争力。所有这些都将表示视为一个独立于分词器且(通常)大得多的系统。Morpheus 则将两者耦合:一个单一的神经模型既能无损分词,又能输出形态学衍生的嵌入,我们直接对比 BERTurk 和 BGE-M3 来评估这个嵌入。 ## 3 方法 ### 3.1 数据与预处理 Morpheus 在一个大规模单语土耳其语语料库上进行训练,该语料库结合了多领域作者语料库和经过清洗的完整土耳其语维基百科(约 10 GB 原始文本),其构建目的是让模型接触四个领域的多样化形态构造:Ekşisözlük(非正式/口语化,富含口语后缀化)、Dergipark(学术性,派生形态学术语)、土耳其语新闻网站(标准新闻体)和土耳其语维基百科(百科式,词汇广泛)。网络来源的领域通过一个配套的抓取工具包进行收集和清洗,该工具包记录了每个来源的提取、HTML/URL 剥离、Unicode 规范化和去重过程;维基百科部分额外根据土耳其语字母覆盖率、停用词/长度阈值和标记进行过滤,然后去重。所有文本都使用土耳其语感知的大小写折叠(İ→i, I→ı)进行处理,原始大小写作为每字符的侧通道保留,而不是被丢弃。 ### 3.2 缓存、监督与数据划分 语料库按照 95/5 的比例使用固定种子划分为训练集和测试集。为了消除每个 epoch 的分割开销,每个句子被预分词一次,缓存成一个张量包,其中每个词包含:字符 ID(填充至 `max_word_len=32`)、每字符大小写标志、来自 Morfessor 教师的 `max_word_len-1` 二进制边界标签向量、针对 120K 单词汇量的词 ID、针对 30K 词根词汇量的词根 ID(词根是 Morfessor 的第一个片段),以及一个句子注意力掩码。边界标签由 Morfessor (Creutz and Lagus, 2007) 产生,然后进行**词根校正**:对于词典内的词,当独立的词根词典同意词根跨度时,移除词根内部的 Morfessor 边界,从而减少词根的过分割。这个校正仅应用于训练标签,并且纯粹是位置性的——从不重写字符串——因此 Morpheus 在推理时保持表层的原貌。对于 Morpheus 训练,句子缓存上限为 900K(训练)/ 100K(验证)个句子,而词和词根的词汇表则从完整语料库构建;稍后提到的独立的 1M 行上限仅适用于下游语言模型评估(第 4.6 节),不适用于 Morpheus 本身。 ### 3.3 模型架构 Morpheus 将一个给定字符序列的词,通过三个阶段(由可微分的分割算子连接)在一次前向传播中映射到一组语素边界和一个单一词嵌入。所有隐藏状态共享工作维度 d=320。 #### 字符编码器与位置形态学。 每个字符嵌入与一个学习到的大小写标志嵌入拼接,通过一个多尺度卷积(卷积核宽度 2–6)以捕获局部字符 n-gram,然后通过 3 个自注意力层,产生上下文感知的字符向量 H = (h1, ..., hL) ∈ R^{L×d}。土耳其语的一个决定性特征是语素身份由**相对于词根的位置**决定:后缀以固定的槽位顺序附加(数、然后所有格等)。
相似文章
通过跨语言分词器手术和离线蒸馏将多语言嵌入模型适配到土耳其语
本文提出了embeddingmagibu-200m,一个专注于土耳其语的句子嵌入模型,通过跨语言分词器手术和离线蒸馏构建,在土耳其语基准测试中取得了强劲性能,同时实现了成本与质量的平衡。
MORPHOGEN:评估性别感知形态生成的多语言基准
研究者发布 MORPHOGEN,一个多语言基准,用于测试大模型能否在法语、阿拉伯语和印地语中将第一人称句子改写为相反性别,同时保留原意。
HYDRA-X: 原生统一多模态模型与整体视觉分词器
HYDRA-X 提出了一种统一的多模态模型,将图像和视频分词集成到单个视觉变换器中,在理解和生成任务上均取得了强劲性能。
面向脑功能连接表征学习的网络感知双线性分词方法
NERVE提出了一种网络感知的双线性分词方法,用于基于掩码自编码器的脑功能连接矩阵自监督学习,改善跨发育队列的表征学习。
MorphStrata:面向时间序列移动目标防御中Morphence学生生成的层特定扰动策略
MorphStrata提出了一种层特定随机噪声注入策略,用于在移动目标防御框架中生成多样化的学生模型,以增强时间序列预测的对抗鲁棒性,在BIM攻击下实现了高达97.97%的RMSE改进,且训练开销极低。