@VukRosic99: GLM 5.2 后训练代码已开源 (slime) Megatron-LM 进行训练。SGLang 生成 rollout。单数据缓冲…

X AI KOLs Timeline 2026/06/27 05:26 模型

open-source model-release post-training reinforcement-learning megatron-lm sglang glm

摘要

GLM 5.2 后训练代码已开源，使用 Megatron-LM 进行训练，SGLang 生成 rollout，形成一个持续强化学习循环，权重同步。

GLM 5.2 后训练代码已开源 (slime) Megatron-LM 进行训练。SGLang 生成 rollout。单数据缓冲区将它们连接成一个连续强化学习循环，每一步后权重同步。下面是我的技术文章。https://t.co/v6fhZ19aqP

查看原文

查看缓存全文

缓存时间: 2026/06/28 03:59

GLM 5.2 后训练代码已开源 (slime)

Megatron-LM 负责训练，SGLang 负责生成 rollout。通过一个统一的数据缓冲区，两者连接成连续的强化学习循环，每一步都会同步回传权重。

以下是我的技术详解。https://t.co/v6fhZ19aqP

相似文章

@didier_lopes: 难以置信，Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…

X AI KOLs Following

Z. ai 将其强化学习基础设施 slime 框架开源，该框架使 GLM-5.2 的 OPD 后训练在约两天内高效完成。slime 是一个用于强化学习扩展的 LLM 后训练框架，集成了 Megatron 和 SGLang，并已通过 GLM、Qwen、DeepSeek 和 Llama 等前沿模型的实战测试。

GLM-5.2 可能是目前最强大的纯文本开放权重大语言模型

Simon Willison's Blog

中国AI实验室Z.ai发布了GLM-5.2，这是一个拥有7530亿参数的开放权重大语言模型，支持100万token的上下文窗口，采用MIT许可证。该模型在Artificial Analysis Intelligence Index上获得最高分，并在Code Arena WebDev排行榜上排名第二。

PSA: unsloth/GLM-5.2-GGUF 正在上传

Reddit r/LocalLLaMA

unsloth 已将 GLM-5.2 的 GGUF 版本上传至 Hugging Face，为 llama.cpp、vLLM 和 SGLang 等多种推理引擎提供了可直接使用的模型文件。

@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在…

X AI KOLs Timeline

Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型，用于问答任务的强化学习训练，声称与外部评判 LM 的一致性达到 80%，且比 F1/ROUGE/BertScore 更快。

GLM-5.2 刚发布开放权重，在编程方面已经异常强大