training-failures

标签

Cards List
#training-failures

我为 PyTorch 训练循环构建调试器所学到的东西,以及它如何改变我对故障诊断的思考 [D]

Reddit r/MachineLearning · 2026-05-30

作者分享了构建 NeuralDBG 的经验,这是一个针对 PyTorch 训练循环的开源调试器,通过监测逐层梯度范数的变化而非全局损失来检测局部故障,如梯度消失/爆炸。文中包含实用代码片段和社区问题。

0 人收藏 0 人点赞
#training-failures

预训练并行化与失败训练运行笔记(12分钟阅读)

TLDR AI · 2026-05-18 缓存

一篇技术深度文章,探讨大型语言模型中预训练运行失败的常见原因,包括专家路由中的因果破坏问题和数值精度错误,并附有Llama 4、Gemini 2 Pro和GPT-4的示例。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈