@VukRosic99: GLM 5.2 后训练代码已开源 (slime) Megatron-LM 进行训练。SGLang 生成 rollout。单数据缓冲…
摘要
GLM 5.2 后训练代码已开源,使用 Megatron-LM 进行训练,SGLang 生成 rollout,形成一个持续强化学习循环,权重同步。
查看缓存全文
缓存时间: 2026/06/28 03:59
GLM 5.2 后训练代码已开源 (slime)
Megatron-LM 负责训练,SGLang 负责生成 rollout。通过一个统一的数据缓冲区,两者连接成连续的强化学习循环,每一步都会同步回传权重。
以下是我的技术详解。https://t.co/v6fhZ19aqP
相似文章
@didier_lopes: 难以置信,Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…
Z. ai 将其强化学习基础设施 slime 框架开源,该框架使 GLM-5.2 的 OPD 后训练在约两天内高效完成。slime 是一个用于强化学习扩展的 LLM 后训练框架,集成了 Megatron 和 SGLang,并已通过 GLM、Qwen、DeepSeek 和 Llama 等前沿模型的实战测试。
GLM-5.2 可能是目前最强大的纯文本开放权重大语言模型
中国AI实验室Z.ai发布了GLM-5.2,这是一个拥有7530亿参数的开放权重大语言模型,支持100万token的上下文窗口,采用MIT许可证。该模型在Artificial Analysis Intelligence Index上获得最高分,并在Code Arena WebDev排行榜上排名第二。
PSA: unsloth/GLM-5.2-GGUF 正在上传
unsloth 已将 GLM-5.2 的 GGUF 版本上传至 Hugging Face,为 llama.cpp、vLLM 和 SGLang 等多种推理引擎提供了可直接使用的模型文件。
@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout,并用这个微型 RM 作为评分标准。接下来我将在…
Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型,用于问答任务的强化学习训练,声称与外部评判 LM 的一致性达到 80%,且比 F1/ROUGE/BertScore 更快。
GLM-5.2 刚发布开放权重,在编程方面已经异常强大
GLM-5.2 已以 MIT 许可证发布开放权重,拥有 100 万上下文窗口和两种推理努力模式。早期基准测试显示它在编程任务中表现出色,值得在基准截图之外进行测试。