标签
本文探讨了多语言大语言模型中内部表示的跨语言迁移,用于比喻语言生成,表明在一种语言中学习到的激活方向可以有效引导其他语言的生成。
在乌克兰法律文本上对七个基础模型进行了基准测试,发现分词器通量差异达1.6倍,少样本提示会降低性能,成本效益分析表明NVIDIA Nemotron Super 3优于更大模型。
# 并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进 来源:[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系,台湾 β 中央研究院资讯科学研究所,台湾 γ 台湾大学人工智能研究中心(AINTU),台湾 wcwu@c