通过跨语言分词器手术和离线蒸馏将多语言嵌入模型适配到土耳其语

Hugging Face Daily Papers 论文

摘要

本文提出了embeddingmagibu-200m,一个专注于土耳其语的句子嵌入模型,通过跨语言分词器手术和离线蒸馏构建,在土耳其语基准测试中取得了强劲性能,同时实现了成本与质量的平衡。

句子嵌入是语义搜索、聚类、分类和检索增强生成的基础组件。本文介绍了embeddingmagibu-200m,这是一个面向土耳其语的句子嵌入模型,生成768维L2归一化向量,支持8,192个token的上下文窗口,远超此前基于BERT的土耳其语编码器512个token的限制。该模型无需完整预训练,而是采用高效的三阶段适配流程:(1)构建土耳其语优化的多语言分词器,词汇量为131,072,通过从教师模型词汇表中剪枝冗余token,并基于40种语言语料库的频率分析纳入多语言token;(2)克隆教师嵌入模型,保留Transformer骨干网络权重,并通过均值组合token映射为新词汇初始化兼容的嵌入表;(3)在预计算的教师向量上进行离线嵌入蒸馏,使用余弦相似度目标函数,基于平衡的40种语言维基百科语料库。最终的学生模型包含约2亿参数,在单个GPU上大约四小时即可完成训练,通过在训练过程中避免在线教师推理,总成本为5-20美元。实验结果表明,在STSbTR上获得了77.55%/77.45%的皮尔逊/斯皮尔曼相关系数,超越了3亿参数的教师模型(73.84%/72.92%)。在TR-MTEB(26项任务)上取得了63.9%的平均分(在26个模型中排名第7),以比教师模型少33%的参数提供了有竞争力的成本质量权衡。为促进可复现性和下游使用,所有工件均已发布,包括模型权重、分词器文件、预计算嵌入数据集以及开源克隆和蒸馏工具。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:36

论文页面 - 通过跨语言分词器手术与离线蒸馏将多语言嵌入模型适配至土耳其语

来源:https://huggingface.co/papers/2605.29992

该论文提出了embeddingmagibu-200m,一个面向土耳其语的句子嵌入模型,通过跨语言分词器手术和离线嵌入蒸馏构建而成。我们并未进行昂贵的完整预训练,而是通过构建一个针对土耳其语优化的13.1万词汇分词器、克隆具有兼容嵌入表的教师架构,并从预计算的教师向量中进行蒸馏,从而适配多语言嵌入模型。

最终得到的2亿参数模型支持8192个token的上下文窗口,在STSbTR上达到77.55%的皮尔逊相关系数和77.45%的斯皮尔曼相关系数,超越了拥有3亿参数的教师模型。在TR-MTEB上,它取得63.9%的平均分,在26个模型中排名第7,同时提供了良好的成本-质量平衡。

所有产出的成果均已发布,包括模型权重、分词器文件、预计算嵌入数据集以及开源克隆与蒸馏工具。该工作对于土耳其语NLP、低资源语言适配、句子嵌入、语义搜索、RAG、分词器优化以及高效蒸馏具有参考价值。

相似文章

m3BERT:一种现代、多语言、套娃式双向编码器

arXiv cs.CL

本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。

beautyyuyanli/multilingual-e5-large

Replicate Explore

多语言 E5-large 嵌入模型现已上线 Replicate,单次运行约 0.00098 美元,在 Nvidia L40S 上约 1 秒完成。

利用多语言LLM嵌入发现词汇空缺

arXiv cs.CL

本文提出了一种数据驱动的框架,利用多语言LLM的嵌入来检测语言间的词汇空缺,在韩语-英语对中实现了高准确率。