training-methodology

标签

Cards List
#training-methodology

Granite 4.1 LLMs:技术架构解析

Hugging Face Blog · 2026-04-29 缓存

本文详细介绍了 IBM Granite 4.1 大语言模型的技术架构与训练流程,涵盖预训练、SFT(监督微调)及 RL(强化学习)阶段。文章指出,该 8B 稠密模型在性能上超越了更大的 MoE(混合专家)模型,并提及模型以 Apache 2.0 许可证开源发布。

0 人收藏 0 人点赞
#training-methodology

SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL · 2026-04-21 缓存

研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈