training

#training

@che_shr_cat: 1/ 我们一直误解了GPU内存的使用方式。如果GPU根本不需要存储你的模型呢？MegaTrain 实现了…

X AI KOLs Timeline ↗ · 16小时前缓存

MegaTrain 通过将 VRAM 视为瞬时无状态缓存，反转内存层次结构，在单张 GPU 上实现了 100B 以上大语言模型的全精度训练。

0 人收藏 0 人点赞

#training

@Hikari_07_jp: 进展报告！DFlash 骨干网络和马尔可夫头的训练已完成，使得 DSpark 可在 27B 上使用。我们将…

X AI KOLs Timeline ↗ · 16小时前缓存

DSpark 的进展更新：DFlash 骨干网络和马尔可夫头的训练已完成，可在 27B 上使用。接下来将训练置信度头以实现自适应草稿生成，预计比 DFlash 加速 8-14%。

0 人收藏 0 人点赞

#training

@VukRosic99: 当小模型从大模型学习时，一半的教训被浪费了设置：一个小的“学生”模型写出答案…

X AI KOLs Timeline ↗ · 昨天缓存

该论文识别了语言模型在策略蒸馏中的位置偏差，即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏（IW-OPD）根据累积漂移对修正进行加权，提高了学习速度和最终性能。

0 人收藏 0 人点赞

#training

@ArkadiiBessonov: LLM预训练中使用FP8的三种主要方法——区别主要在于scale的附加方式。per-tens…

X AI KOLs Timeline ↗ · 2天前缓存

解释了LLM预训练中FP8缩放的三种主要方法——per-tensor、blockwise和MXFP8——重点关注scale的附加方式，并根据scale必须在matmul的收缩维度上保持恒定这一约束，推导出tile几何形状。

0 人收藏 0 人点赞

#training

韩国计划将全体军队培训为"无人机战士"

Ars Technica ↗ · 2天前缓存

韩国宣布计划培训全部50万军事人员操作无人机，将其作为"通用作战工具"，此举受乌克兰和中东无人机战争的启发。

0 人收藏 0 人点赞

#training

训练中检测奖励欺骗的RL奖励函数调试器 [P]

Reddit r/MachineLearning ↗ · 3天前

一个调试器，在强化学习训练期间检测奖励函数中的奖励欺骗，帮助开发人员识别和修复问题。

0 人收藏 0 人点赞

#training

@almond_robotics: 约1000个训练片段之一。

X AI KOLs Following ↗ · 3天前缓存

Almond Robotics分享了其机器人系统的大约1000个训练片段之一。

0 人收藏 0 人点赞

#training

@lilianweng: 一篇超级迟到的（3年以上？）关于扩展定律的帖子。计算很昂贵。扩展定律是一种帮助我们推理…

X AI KOLs Timeline ↗ · 3天前缓存

Lilian Weng的博客文章全面概述了深度学习中的扩展定律，涵盖了它们的推导、计算最优分配以及Kaplan等人与Chinchilla之间的争论。

0 人收藏 0 人点赞

#training

@SergioPaniego: 现在您可以使用 TRL 训练 @liquidai 的 LFM2-VL 模型，包含 GRPO 和 RLOO 方法，并附有示例脚本

X AI KOLs Following ↗ · 4天前缓存

您现在可以使用 TRL 的 GRPO 和 RLOO 方法来训练 Liquid AI 的 LFM2-VL 模型，并提供了示例脚本。

0 人收藏 0 人点赞

#training

@natolambert: 又一场快速讲座——很多人多次问过我关于我书籍的前置知识和应该了解的内容，所以我制作了一个小讲座…

X AI KOLs Timeline ↗ · 5天前缓存

Nathan Lambert 分享了一段视频讲座，涵盖了他书籍的前置知识，包括语言模型基础、概率和训练流程，使用 GLM 5.2 进行讲解。

0 人收藏 0 人点赞

#training

强化学习：迈向广泛且持续有益的人工智能模型

arXiv cs.AI ↗ · 5天前缓存

这篇来自OpenAI的论文研究了基于有益行为的强化学习能否产生超越训练分布的广泛且持久的对齐泛化。通过使用一个包含真实场景的数据集，他们表明，对有益特质进行强化训练能够提升分布外的对齐能力，并增强对对抗性攻击的持久抵抗力。

0 人收藏 0 人点赞

#training

@SergioPaniego: 我们让一个智能体实时训练一个编码智能体，仅从一个提示开始——哪个智能体是哪个，为什么这样做有意义，以及所有产物，都在回顾中。

X AI KOLs Timeline ↗ · 6天前缓存

一个AI智能体从一个提示训练编码智能体的实时演示，并回顾了所有产物。

0 人收藏 0 人点赞

#training

@Muennighoff：我们正在通过扩展到Opus/GPT级别、从头训练以及超越编码，开发一个更好的Composer模型！

X AI KOLs Timeline ↗ · 6天前缓存

Muennighoff宣布正在开发一个更好的Composer模型，扩展到Opus/GPT级别、从头训练，并超越编码，作为Cursor与SpaceX合作的一部分。

0 人收藏 0 人点赞

#training

GLM5.2 @7tg 在预算主板+CPU上使用4x3090+192GB

Reddit r/LocalLLaMA ↗ · 2026-06-22

在预算配置下，使用4块RTX 3090 GPU和192GB内存运行GLM5.2，处理7万亿tokens。

0 人收藏 0 人点赞

#training

Tmax：一种简单的终端智能体配方

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

Tmax 引入了一种简化的终端智能体强化学习训练配方，通过新颖的数据生成分类法和扩展的开源数据集，使用 9B 参数模型实现了最先进的性能。

0 人收藏 0 人点赞

#training

以数据为中心的调试：面向训练神经网络的团队 [P]

Reddit r/MachineLearning ↗ · 2026-06-21

WeightsLab 是一个开源、PyTorch 原生的工具，允许团队在训练过程中暂停、检查实时损失信号，并在数据问题（如标签错误和类别不平衡）影响模型性能之前发现它们。它专为处理图像、视频和 LiDAR 点云的计算机视觉工程师而设计。

0 人收藏 0 人点赞

#training

为什么不能训练LLMs用一种优化的AI语言而非英语来思考？

Reddit r/singularity ↗ · 2026-06-21

一个推测性的讨论，质疑为什么LLMs没有被训练使用优化的内部语言而非自然语言来思考，以及这是否能提高效率。

0 人收藏 0 人点赞

#training

@FinanceYF5: 3/ 他认为，过去5个月AI能力的跃升不只来自Claude Code等工具进步而是因为【Mythos】——Anthropic一个新模型在今年2月完成训练后悄然改变了整个研发节奏关键判断：领先的模型，正在帮助训练下一代领先的模型 …

X AI KOLs Following ↗ · 2026-06-21 缓存

据推测，Anthropic新模型Mythos于今年2月训练完成后，悄然改变了研发节奏，使得过去5个月AI能力显著跃升，领先模型正在帮助训练下一代模型。

0 人收藏 0 人点赞

#training

@TheTuringPost: 开源代理强化训练器（ART）——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励…

X AI KOLs Timeline ↗ · 2026-06-20 缓存

代理强化训练器（ART）是一个开源框架，将基于GRPO的强化学习嵌入任何Python应用，使代理能够通过环境交互学习，利用轨迹评分和LoRA更新，据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。

0 人收藏 0 人点赞

#training

RTX 5090 MSI，仅推理或训练时功耗475-500W。请确保不要弯折线缆！

Reddit r/LocalLLaMA ↗ · 2026-06-20

MSI的RTX 5090 GPU在推理或训练时功耗为475-500W，并附有关于线缆弯折的警告。

0 人收藏 0 人点赞

training

提交意见反馈