标签
本文测试了通过任务模式选择性和因果消融来识别注意力头回路的标准方法是否在不同1B类语言模型族(Pythia、OLMo、OLMoE)中产生一致的机制性结论。研究发现没有两个(任务、模型)单元共享相同的主要因果筛选,并引入了屏幕结果的五分类法,其中MoE模型显示出独特的前一token位置基板。
本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。