training-methodology

#training-methodology

Granite 4.1 LLMs：技术架构解析

Hugging Face Blog ↗ · 2026-04-29 缓存

本文详细介绍了 IBM Granite 4.1 大语言模型的技术架构与训练流程，涵盖预训练、SFT（监督微调）及 RL（强化学习）阶段。文章指出，该 8B 稠密模型在性能上超越了更大的 MoE（混合专家）模型，并提及模型以 Apache 2.0 许可证开源发布。

0 人收藏 0 人点赞

#training-methodology

SPS：通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL ↗ · 2026-04-21 缓存

研究人员提出了 SPS（概率挤压引导），这是一种结合强化学习与逆强化学习的训练范式，旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹，导致探索空间受限及多样本性能（Pass@k）下降。在五个推理基准上的实验表明，该方法有效提升了模型的探索能力与 Pass@k 指标。

0 人收藏 0 人点赞

training-methodology

Granite 4.1 LLMs：技术架构解析

SPS：通过概率挤压引导实现大语言模型强化学习中的更优探索

提交意见反馈