标签
CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。
Z. ai 将其强化学习基础设施 slime 框架开源,该框架使 GLM-5.2 的 OPD 后训练在约两天内高效完成。slime 是一个用于强化学习扩展的 LLM 后训练框架,集成了 Megatron 和 SGLang,并已通过 GLM、Qwen、DeepSeek 和 Llama 等前沿模型的实战测试。
来自斯坦福大学、加州大学和南京大学的研究人员发布了SEFD数据集,包含来自SEC文件的152B个词元,转换为保留布局的MultiMarkdown格式,保持表格结构用于LLM训练,且与Common Crawl的重叠很小。
一个从零开始构建GPT风格Transformer的仓库,不使用高级库,涵盖了从数据预处理到生成的整个过程,并包括SFT和RLHF的指南。
本文介绍了'文化漏斗'概念,展示了LLM训练数据中的文化信号在后训练阶段急剧下降。作者发布了一个包含5.6M样本的标记数据集,以帮助在模型对齐中保留文化基础。
MLX-LoRA-Studio 是一款原生的macOS应用,用于在Apple Silicon上微调LLM,提供用户友好的界面,支持多种训练算法,包括SFT、DPO和QAT。它完全开源,允许本地私有微调,无需依赖云端。
介绍了一个名为 llm.istanbul 的 WebGPU LLM 工作台,可在浏览器中训练小模型、训练分词器并生成文本。无需服务器,完全本地运行。
本文介绍了FormatMix,一种多格式训练方法,通过将部分训练项扩展为多个等效格式来提升LLM在不同答案格式间的一致性,表明格式多样性是鲁棒性的关键。
本文介绍了如何使用GRPO微调LLM(Qwen3-8B)以实现可靠的JSON结构化输出,将模式准确率从62%提升至82%,超越了GPT-4.1的58%。
本文提出RACES,一种递归自动组合框架,将可验证环境视为可组合的构建块,以扩展LLM的强化学习规模,通过组合算子实现高效的推理泛化。
这条推文概述了2026年LLM训练的三步循环:用数据训练、运行评估、为表现不佳的任务添加合成数据。它强调了通过开源模型和廉价API进行合法蒸馏的易得性,并指出仅凭推理轨迹训练就能获得高分。
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。
本文介绍 MAPL,一种针对流水线并行中激活值进行学习型正交压缩的方法,通过 Stiefel 流形约束和逐阶段分解锚定嵌入,在保持性能的同时降低通信开销。
Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。
哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。
SDPG(自蒸馏策略梯度)是一种面向大语言模型的全新强化学习训练框架,结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化,旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文,使同一模型同时充当学生和教师,在稳定性和性能上均优于RLVR及自蒸馏基线方法。
本文提出了一种难度感知的SFT-then-RL框架,用于在推理任务上训练小语言模型(参数量≤3B),核心观点是数据难度应与SFT(学习新技能)和RL(巩固已有技能)各自的不同角色相匹配。作者为困难SFT样本引入了Bridge机制,并针对RL失败案例提出了Critique Fine-Tuning方法,在五个推理基准测试上均取得了一致性提升。
推荐阅读MAI-Thinking-1的技术论文,其中详细介绍了训练SOTA大语言模型的几乎全部细节。
从零开始训练了一个名为KeyLM的75M参数LLM,使用18B tokens,在指令跟随得分上与更大模型竞争,同时使用更少的参数和更少的数据。
OmniOPD 提出了一种无Logit的同策略蒸馏方法,利用块级语义相似性和推测验证,在黑盒教师指导下训练学生模型,在数学基准上相比标准OPD实现了高达+28.64%的提升。