通过跨语言分词器手术和离线蒸馏将多语言嵌入模型适配到土耳其语
摘要
本文提出了embeddingmagibu-200m,一个专注于土耳其语的句子嵌入模型,通过跨语言分词器手术和离线蒸馏构建,在土耳其语基准测试中取得了强劲性能,同时实现了成本与质量的平衡。
查看缓存全文
缓存时间: 2026/06/02 15:36
论文页面 - 通过跨语言分词器手术与离线蒸馏将多语言嵌入模型适配至土耳其语
来源:https://huggingface.co/papers/2605.29992
该论文提出了embeddingmagibu-200m,一个面向土耳其语的句子嵌入模型,通过跨语言分词器手术和离线嵌入蒸馏构建而成。我们并未进行昂贵的完整预训练,而是通过构建一个针对土耳其语优化的13.1万词汇分词器、克隆具有兼容嵌入表的教师架构,并从预计算的教师向量中进行蒸馏,从而适配多语言嵌入模型。
最终得到的2亿参数模型支持8192个token的上下文窗口,在STSbTR上达到77.55%的皮尔逊相关系数和77.45%的斯皮尔曼相关系数,超越了拥有3亿参数的教师模型。在TR-MTEB上,它取得63.9%的平均分,在26个模型中排名第7,同时提供了良好的成本-质量平衡。
所有产出的成果均已发布,包括模型权重、分词器文件、预计算嵌入数据集以及开源克隆与蒸馏工具。该工作对于土耳其语NLP、低资源语言适配、句子嵌入、语义搜索、RAG、分词器优化以及高效蒸馏具有参考价值。
相似文章
m3BERT:一种现代、多语言、套娃式双向编码器
本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。
beautyyuyanli/multilingual-e5-large
多语言 E5-large 嵌入模型现已上线 Replicate,单次运行约 0.00098 美元,在 Nvidia L40S 上约 1 秒完成。
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。
SemBridge:通过多语言语义桥实现稀疏编码器中的语言迁移
SemBridge是一种新颖的嵌入初始化方法,利用多语言桥接模型建立源词汇和目标词汇之间的语义对齐,从而提升跨语言稀疏编码器的适配能力和多语言检索性能。
利用多语言LLM嵌入发现词汇空缺
本文提出了一种数据驱动的框架,利用多语言LLM的嵌入来检测语言间的词汇空缺,在韩语-英语对中实现了高准确率。