tokenizer-optimization

标签

Cards List
#tokenizer-optimization

通过跨语言分词器手术和离线蒸馏将多语言嵌入模型适配到土耳其语

Hugging Face Daily Papers · 2026-05-28 缓存

本文提出了embeddingmagibu-200m,一个专注于土耳其语的句子嵌入模型,通过跨语言分词器手术和离线蒸馏构建,在土耳其语基准测试中取得了强劲性能,同时实现了成本与质量的平衡。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈