training

#training

@neural_avb: 正在研究推理训练文档。准备编写验证器环境，然后用 Unsloth/TRL 搞起来！如果一切顺利，很快就会出视频。

X AI KOLs Timeline ↗ · 2026-06-11 缓存

用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练，报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展，并承诺很快发布视频。

0 人收藏 0 人点赞

#training

从零构建一个复古风格的LLM

Hacker News Top ↗ · 2026-06-11 缓存

作者记录了从零构建一个340M参数LLM的过程，该模型仅使用1900年以前的文本进行训练，包括自定义数据集、训练脚本，并开源了模型和代码。

0 人收藏 0 人点赞

#training

@ClementDelangue: 我们是否应该尝试训练一个开源AI构建模型？我们显然有有趣的数据集，如HF、MLintern、tran…

X AI KOLs Following ↗ · 2026-06-10

Clement Delangue 询问是否应该训练一个开源AI构建模型，并指出有可用的数据集和工具，如HF、MLintern、transformers和trl。

0 人收藏 0 人点赞

#training

@natashajaques：非常喜欢阅读微软MAI-Thinking-1的《Building a Hill Climbing Machine》论文。令人惊讶的是他们公开了……

X AI KOLs Following ↗ · 2026-06-10 缓存

Natasha Jaques赞扬微软MAI-Thinking-1论文完全公开了前沿模型的训练方法，重点指出预训练、中期训练和RL后训练阶段的token分布，并提到Yann LeCun的蛋糕比喻很有先见之明。

0 人收藏 0 人点赞

#training

反馈对齐在自蒸馏中的作用

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

本文研究了语言模型中自蒸馏的上下文设计，发现逐步对齐的批评反馈显著优于二元奖励或参考解条件，因为它只针对错误词元，同时保留正确行为。

0 人收藏 0 人点赞

#training

@qjoyliu: 训练的未来是开源的。非常激动地宣布，我们已与HuggingFace、Nvidia、Met…

X AI KOLs Following ↗ · 2026-06-08 缓存

OpenEnv，一个训练环境，正在向社区开放，得到了HuggingFace、Nvidia、Meta等领先公司的支持。

0 人收藏 0 人点赞

#training

@SergioPaniego: OpenEnv 有了新家：http://github.com/huggingface/OpenEnv… 从今天起，由一个委员会协调，其中包括…

X AI KOLs Following ↗ · 2026-06-08 缓存

OpenEnv，一个用于创建和部署隔离执行环境以进行智能体强化学习训练的框架，已迁移到 Hugging Face，现在由一个包括 Meta-PyTorch、NVIDIA 等的委员会管理。

1 人收藏 1 人点赞

#training

@charles_irl: 在忙碌中竟然错过了这个。很酷的演示！

X AI KOLs Following ↗ · 2026-06-07 缓存

一位开发者使用自建ML框架，基于Rust后端和CUDA内核，包含Flash Attention和AdamW，从零训练了一个1200万参数的LLM。

0 人收藏 0 人点赞

#training

@eliebakouch：我最喜欢的项目之一是斯坦福团队的Marin，他们采用科学的方法进行训练，并且愿意……

X AI KOLs Following ↗ · 2026-06-07 缓存

Marin是斯坦福大学开发的开源框架，用于可复现的基础模型研究，涵盖数据整理、分词、训练和评估；它被用于训练一个80亿参数的模型，其性能超过了Llama 3.1 8B。

0 人收藏 0 人点赞

#training

@ChenHenryWu: 自我提升取决于模型能否判断自身工作。我们通常训练模型生成更好的内容——为什么不也训练它们进行同等水平的验证？

X AI KOLs Timeline ↗ · 2026-06-05 缓存

这条推文线程介绍了一项研究：训练模型验证自身工作，可使模型在复杂数学问题上的准确率几乎翻倍，并将科学推理能力提升14倍。

0 人收藏 0 人点赞

#training

@tut_ml: 最佳大型语言模型课程 - https://mltut.com/best-large-language-models-courses/…

X AI KOLs Timeline ↗ · 2026-06-05 缓存

一篇博客文章列出了10个最佳大型语言模型（LLM）课程和培训资源，包括来自Coursera、DataCamp、Udacity以及Vanderbilt等大学的课程。

0 人收藏 0 人点赞

#training

状态承诺学习：训练语言模型区分计算与记忆

arXiv cs.LG ↗ · 2026-06-05 缓存

本文介绍了状态承诺学习，这是一种训练目标，旨在教会语言模型区分临时计算令牌与持久状态令牌。作者提出了反事实擦除强化学习（CERL）和擦除依赖协议，在数学、逻辑、科学问答以及工具使用任务中展示了改进，且未牺牲准确性。

0 人收藏 0 人点赞

#training

CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

arXiv cs.CL ↗ · 2026-06-05 缓存

CollabBench是一个新的基准测试，用于评估和训练LLM智能体在合作游戏中的表现，具有多样玩家模拟和协作训练范式。实验表明，与基础模型相比，效率提高19.5%，情感性能提升24.4%。

0 人收藏 0 人点赞

#training

@adithya_s_k: 你现在可以直接用 TRL 对模型在智能体轨迹上进行微调：Claude Code 轨迹、Codex 轨迹、OpenClaw 轨迹、Pi 轨迹……

X AI KOLs Following ↗ · 2026-06-04 缓存

TRL 现在支持对来自各种来源（如 Claude Code、Codex、OpenClaw 和 Pi）的智能体轨迹进行模型微调，这正朝着训练智能体模型的标准化栈迈进。

0 人收藏 0 人点赞

#training

@loganthorneloe：阅读此文，开始学习机器学习基础设施。这是对机器学习中重要考虑因素的极好高层概述……

X AI KOLs Timeline ↗ · 2026-06-03 缓存

卡内基梅隆大学软件工程研究所发布了一篇机器学习训练基础设施概述，涵盖了硬件考量（如GPU与CPU）以及内存需求等。

0 人收藏 0 人点赞

#training

@FinanceYF5: Anthropic 正在雇佣 1000 名自由职业软件工程师来训练 Claude Code。单任务报酬 280 美元。他们负责编写提示词、比对代码输出、测试模型的追问响应，并且教会 Claude 真实开发者的工作方式。这简直是在亲手…

X AI KOLs Following ↗ · 2026-06-03 缓存

Anthropic is hiring 1000 freelance software engineers to train Claude Code, with each task paying $280. The engineers will write prompts, compare code outputs, test model responses, and teach Claude how real developers work.

0 人收藏 0 人点赞

#training

@FeitengLi: 异步、稀疏，和小数点后第五位：Cursor 训练 Composer 2 的工程细节 https://lattifai.com/zh/podcasts/SequoiaCapital/UDTr9yUnLUI…

X AI KOLs Timeline ↗ · 2026-06-03 缓存

本文深入探讨Cursor训练Composer 2模型采用的异步、稀疏等技术细节，并介绍了RL基础设施的全解析。

0 人收藏 0 人点赞

#training

@DanKornas：不要通过零散的教程学习 LLM。LLM from Scratch 是一个面向开发者的实践性 PyTorch 课程，适合那些想要……

X AI KOLs Timeline ↗ · 2026-06-02 缓存

一个实践性 PyTorch 课程，教授从 Transformer 基础到微调和对齐的 LLM 训练，包括 RLHF 和 GRPO。

0 人收藏 0 人点赞

#training

@_djdumpling：非常令人兴奋的工作，很高兴今年夏天能在 @modal 从事强化学习工作！

X AI KOLs Timeline ↗ · 2026-06-01 缓存

用户对在 Modal 从事强化学习工作表示兴奋，并提及 Modal 发布了开源库以及在扩展强化学习训练中学到的经验。

0 人收藏 0 人点赞

#training

@yibie: 训练小模型：2026 年最被低估的 AI 技能 2026 年 5 月 11 日，一个叫 CJ Zafir 的人发了一条推文。他想教普通人 fine-tune 开源模型。 2538 个赞，316 次转发，178,000 次观看。这条推文炸了…

X AI KOLs Timeline ↗ · 2026-06-01 缓存

2026年5月，CJ Zafir 一条教普通人微调开源模型的推文获得广泛关注，展示了训练小模型作为2026年最被低估AI技能的趋势。

0 人收藏 0 人点赞

training

提交意见反馈