training

#training

研究人员使用32块H100 GPU训练了一个Deep Research智能体，并开源了所有内容

Reddit r/LocalLLaMA ↗ · 2026-06-19

研究人员使用32块H100 GPU训练了一个Deep Research智能体，并开源了所有组件，从而促进了社区访问和进一步开发。

0 人收藏 0 人点赞

#training

@OpenAI：这是朝着更强大有益且更对齐的模型迈出的早期一步：训练模型将有益特质带入新场景……

X AI KOLs ↗ · 2026-06-18

OpenAI宣布了朝着训练AI模型将有益特质带入新场景的早期一步，旨在使AI在能力增强的同时更加可靠、透明和有用。

0 人收藏 0 人点赞

#training

@jino_rohit: https://x.com/jino_rohit/status/2067620031517860243

X AI KOLs Timeline ↗ · 2026-06-18 缓存

解释多GPU系统的通信模型，涵盖延迟与带宽之间的权衡，并比较MST和Ring算法在广播等集合操作中的应用。

0 人收藏 0 人点赞

#training

@neural_avb: 我最好的新习惯是让我的代理记录我在训练模型时使用的所有技巧和秘籍。我有日志……

X AI KOLs Timeline ↗ · 2026-06-18 缓存

作者分享了一个习惯：使用代理记录所有训练技巧和秘籍，包括超参数调整和数据集升级，以保持事实日志供日后参考和教程制作。

0 人收藏 0 人点赞

#training

@adithya_s_k: 现在，您只需几行代码即可使用 TRL 在 OpenReward 提供的 350+ 个强化学习环境上进行训练

X AI KOLs Following ↗ · 2026-06-17 缓存

OpenReward 和 TRL 现在支持在超过 350 个强化学习环境中进行训练，只需极少代码。

0 人收藏 0 人点赞

#training

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline ↗ · 2026-06-17 缓存

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中，从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段，是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

0 人收藏 0 人点赞

#training

MGUP:一种用于随机优化的动量-梯度对齐更新策略

arXiv cs.LG ↗ · 2026-06-17 缓存

提出了一种用于随机优化的动量-梯度对齐更新策略MGUP，可实现层内选择性参数更新。该策略能与AdamW、Lion和Muon等优化器无缝集成，在提供理论收敛保证的同时，在大型模型训练任务中展现出卓越性能。

0 人收藏 0 人点赞

#training

@tinygrad: 我们已凭借AMD MI350X训练Llama 8B登上MLPerf榜单。这基于我们自己的驱动、运行时、内核及训练循环…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

tinygrad宣布，其凭借AMD MI350X硬件训练Llama 8B，在MLPerf基准测试榜单上占据一席之地，采用了自研驱动、运行时、内核及训练循环，并计划进一步优化时间并挑战405B模型。

0 人收藏 0 人点赞

#training

最快、最大、最强：NVIDIA Blackwell 横扫 MLPerf Training 6.0

NVIDIA Blog ↗ · 2026-06-16 缓存

NVIDIA 的 Blackwell 平台在所有 MLPerf Training 6.0 基准测试中实现了最快的训练时间，扩展到 8,192 块 GPU，并且 GB300 NVL72 相比 GB200 NVL72 展示了高达 1.6 倍的性能提升。

0 人收藏 0 人点赞

#training

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

本文介绍了LLM-as-Environment-Engineer框架，该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境，实现自我改进训练，其性能超越更大的专有模型。

0 人收藏 0 人点赞

#training

通过解耦权重向量的幅度和方向改进神经网络训练 | Alexander Hägele

Reddit r/LocalLLaMA ↗ · 2026-06-15 缓存

这篇博客文章介绍了幅度-方向（MD）解耦方法，该方法将神经网络权重矩阵分解为方向分量和幅度分量，并使用独立的学习率进行优化。实验表明，该方法在Adam和Muon优化器上均提升了性能，实现了跨模型宽度的自动学习率迁移，并在大规模混合专家模型中展现了缩放优势。

0 人收藏 0 人点赞

#training

@tanzhengmc97: https://x.com/tanzhengmc97/status/2066531753762656730

X AI KOLs Timeline ↗ · 2026-06-15 缓存

用通俗易懂的语言解释了大模型的运行原理，包括词向量、Transformer注意力机制、下一个词预测训练以及涌现能力，适合初学者理解AI基础概念。

0 人收藏 0 人点赞

#training

FBI建造了一个模拟网络攻击的小镇

The Verge ↗ · 2026-06-14 缓存

FBI在阿拉巴马州亨茨维尔建造了一个22000平方英尺的模拟小镇，名为Kinetic Cyber Range，用于模拟网络攻击以进行培训和研究，系统隔离以防止恶意软件逃逸。

0 人收藏 0 人点赞

#training

想要构建自定义模型

Reddit r/LocalLLaMA ↗ · 2026-06-14

一位用户讨论将小型自动补全模型（2500万参数）作为学习项目来构建，提到硬件限制（32GB VRAM）、数据要求（约1亿个token），并寻求关于数据集和自动补全式训练的数据格式的建议。

0 人收藏 0 人点赞

#training

@leerob: https://x.com/leerob/status/2065469795529588940

X AI KOLs Following ↗ · 2026-06-12 缓存

Cursor AI 描述了其用于扩展 Composer 模型训练的递归代理系统，该系统使用一组自我管理的代理，在出现问题时向人类发出警报。该系统支持并行实验并加速研究，将研究人员的时间视为最稀缺的资源。

0 人收藏 0 人点赞

#training

首个用于机器人的游戏引擎

Hacker News Top ↗ · 2026-06-12 缓存

Lucky Robots 宣布推出 Lucky Engine，这是首个专为机器人设计的游戏引擎，通过逼真的模拟和部署，为机器人 AI 训练生成无限数据。

0 人收藏 0 人点赞

#training

@GitHub_Daily: 想深入研究模型，不能只停留在应用层，需要弄懂底层系统是如何训练和优化的。偶然发现 LLMSys-PaperList，这份精心整理了大模型系统相关的论文合集。从 2022 年一直更新到 2026 年最新的顶会论文，并按训练、推理、多模态…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

一个精心整理的大模型系统相关论文合集，涵盖训练、推理、多模态等方向，持续更新并收录了技术报告、框架和课程，适合研究人员和开发者参考。

0 人收藏 0 人点赞

#training

@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。结果表明在目标清…

X AI KOLs Timeline ↗ · 2026-06-11 缓存

Recursive团队发布自动化AI研究系统，能自主完成研究循环，在多个基准上超越人类社区已有方案，如在NanoGPT Speedrun中将训练时间从79.7秒压缩至77.5秒，在SOL-ExecBench上将得分提升至0.754。

0 人收藏 0 人点赞

#training

Boxwood Chess

Product Hunt ↗ · 2026-06-11

Boxwood Chess 是一款国际象棋模式训练工具，没有计时器、连续记录或评分。

0 人收藏 0 人点赞

#training

@neural_avb: 正在研究推理训练文档。准备编写验证器环境，然后用 Unsloth/TRL 搞起来！如果一切顺利，很快就会出视频。

X AI KOLs Timeline ↗ · 2026-06-11 缓存

用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练，报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展，并承诺很快发布视频。

0 人收藏 0 人点赞

training

提交意见反馈