标签
本文详细介绍了 IBM Granite 4.1 大语言模型的技术架构与训练流程,涵盖预训练、SFT(监督微调)及 RL(强化学习)阶段。文章指出,该 8B 稠密模型在性能上超越了更大的 MoE(混合专家)模型,并提及模型以 Apache 2.0 许可证开源发布。
研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。