标签
Nathan Lambert和Finbarr Timbers讨论了大型语言模型的最新后训练配方,包括DeepSeek V4、GLM 5.1、Kimi K2.6,以及行业向多教师在线策略蒸馏的转变。