标签
一个在550步内对两个指令遵循数据集进行微调的Pythia-6.9B模型,具备了13种语言的能力,相比基础模型有显著提升。
本文研究语言模型之间直接激活迁移是否能改善推理能力,使用从Pythia-160M到Pythia-410M的线性翻译层。尽管实现了高表示对齐,但迁移的激活并未改善多跳问答,产生了负面结果。