标签
讨论了字节级分词器是否在精确任务(如区分相似名称、计数字符和大小写敏感)上优于子词分词器,并询问当前推荐。
本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。