标签
用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练,报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展,并承诺很快发布视频。
作者记录了从零构建一个340M参数LLM的过程,该模型仅使用1900年以前的文本进行训练,包括自定义数据集、训练脚本,并开源了模型和代码。
Clement Delangue 询问是否应该训练一个开源AI构建模型,并指出有可用的数据集和工具,如HF、MLintern、transformers和trl。
Natasha Jaques赞扬微软MAI-Thinking-1论文完全公开了前沿模型的训练方法,重点指出预训练、中期训练和RL后训练阶段的token分布,并提到Yann LeCun的蛋糕比喻很有先见之明。
本文研究了语言模型中自蒸馏的上下文设计,发现逐步对齐的批评反馈显著优于二元奖励或参考解条件,因为它只针对错误词元,同时保留正确行为。
OpenEnv,一个训练环境,正在向社区开放,得到了HuggingFace、Nvidia、Meta等领先公司的支持。
OpenEnv,一个用于创建和部署隔离执行环境以进行智能体强化学习训练的框架,已迁移到 Hugging Face,现在由一个包括 Meta-PyTorch、NVIDIA 等的委员会管理。
一位开发者使用自建ML框架,基于Rust后端和CUDA内核,包含Flash Attention和AdamW,从零训练了一个1200万参数的LLM。
Marin是斯坦福大学开发的开源框架,用于可复现的基础模型研究,涵盖数据整理、分词、训练和评估;它被用于训练一个80亿参数的模型,其性能超过了Llama 3.1 8B。
这条推文线程介绍了一项研究:训练模型验证自身工作,可使模型在复杂数学问题上的准确率几乎翻倍,并将科学推理能力提升14倍。
一篇博客文章列出了10个最佳大型语言模型(LLM)课程和培训资源,包括来自Coursera、DataCamp、Udacity以及Vanderbilt等大学的课程。
本文介绍了状态承诺学习,这是一种训练目标,旨在教会语言模型区分临时计算令牌与持久状态令牌。作者提出了反事实擦除强化学习(CERL)和擦除依赖协议,在数学、逻辑、科学问答以及工具使用任务中展示了改进,且未牺牲准确性。
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
TRL 现在支持对来自各种来源(如 Claude Code、Codex、OpenClaw 和 Pi)的智能体轨迹进行模型微调,这正朝着训练智能体模型的标准化栈迈进。
卡内基梅隆大学软件工程研究所发布了一篇机器学习训练基础设施概述,涵盖了硬件考量(如GPU与CPU)以及内存需求等。
Anthropic is hiring 1000 freelance software engineers to train Claude Code, with each task paying $280. The engineers will write prompts, compare code outputs, test model responses, and teach Claude how real developers work.
本文深入探讨Cursor训练Composer 2模型采用的异步、稀疏等技术细节,并介绍了RL基础设施的全解析。
一个实践性 PyTorch 课程,教授从 Transformer 基础到微调和对齐的 LLM 训练,包括 RLHF 和 GRPO。
用户对在 Modal 从事强化学习工作表示兴奋,并提及 Modal 发布了开源库以及在扩展强化学习训练中学到的经验。
2026年5月,CJ Zafir 一条教普通人微调开源模型的推文获得广泛关注,展示了训练小模型作为2026年最被低估AI技能的趋势。