标签
本文重新审视了LLM中的多语言推理差距,发现在可比较的监督条件下,该差距比先前报告的要小。本文引入了Layer Swap,它将来自英语推理专家的中间层权重转移到母语专家,几乎消除了这一差距,同时保留了母语链式思维。
研究人员推出了 x1,这是一类推理模型家族,能够针对每个具体实例自适应地选择最优语言进行推理,证实了在多语言及文化相关任务中,语言选择会对推理质量产生影响。
本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。