distributed-training

#distributed-training

看起来 PyTorch 正在获得快速 Thunderbolt 通信后端（在 Mac 上分布式模型）

Reddit r/LocalLLaMA ↗ · 4天前缓存

据报道，PyTorch 正在为 Mac 上的分布式模型训练添加一个快速的 Thunderbolt 通信后端。

0 人收藏 0 人点赞

#distributed-training

现实世界客户端流失下的鲁棒联邦学习

arXiv cs.LG ↗ · 2026-07-09 缓存

FeLiX是一个新的联邦学习编排框架，通过处理临时客户端可用性、动态数据异质性和结果延迟，优化实时交互流上的目标准确率时间。它引入了流感知可用性层级、新鲜效用选择和延迟鲁棒聚合，与最先进的基线相比，将挂钟时间减少了最多2.37倍，通信带宽减少了1.30倍。

0 人收藏 0 人点赞

#distributed-training

@PyTorch：PyTorch 基金会博客新文章：@AMD 和 @Meta 贡献者分享如何将 PyTorch Monarch 引入 AMD Instinct G…

X AI KOLs Following ↗ · 2026-07-07 缓存

AMD 和 Meta 贡献者将 PyTorch Monarch 移植到 AMD Instinct GPU 并配合 ROCm，实现了大规模容错分布式训练。该博客详细介绍了工程工作以及在大型集群上的验证情况。

0 人收藏 0 人点赞

#distributed-training

模型合并能否改进DiLoCo中的聚合？

arXiv cs.LG ↗ · 2026-07-07 缓存

本文提出使用模型合并技术，特别是Iso-C聚合，来改进DiLoCo分布式训练中的聚合步骤，从而产生一种名为IsoLoCo的新方法，该方法在语言模型预训练上优于DiLoCo。

0 人收藏 0 人点赞

#distributed-training

将 PyTorch Monarch 移植到 AMD GPU：在 ROCm 上进行单控制器分布式训练（13 分钟阅读）

TLDR AI ↗ · 2026-07-07 缓存

本文描述了将分布式训练运行时 PyTorch Monarch 移植到基于 ROCm 的 AMD GPU 的过程，实现了大规模单控制器容错训练，并解决了大规模 LLM 训练中的可靠性挑战。

0 人收藏 0 人点赞

#distributed-training

谁告诉过你分布式训练是不可能的？民主化AI：Psyche网络架构

Reddit r/LocalLLaMA ↗ · 2026-07-05 缓存

Nous Research推出了Psyche，这是一种去中心化基础设施，用于在分布式异构硬件上训练大型语言模型，采用新型优化器DeMo和DisTrO大幅降低通信开销。

0 人收藏 0 人点赞

#distributed-training

@qingke_ai: https://x.com/qingke_ai/status/2073248986430115892

X AI KOLs Timeline ↗ · 2026-07-04 缓存

本文作者分享了从nnScaler到大规模分布式训练系统的经验与思考，讨论了训练系统的正确性、灵活性、边界扩展以及后训练与强化学习带来的挑战。

0 人收藏 0 人点赞

#distributed-training

@0x0SojalSec: 去他妈的付费课程，掌握AI系统的GPU工程。从基础书籍和CUDA/ROCm编程到低阶…

X AI KOLs Timeline ↗ · 2026-07-02 缓存

一份精心整理的资源列表，用于掌握AI系统的GPU工程，涵盖CUDA、ROCm、优化工具、多GPU编排和分布式训练。

0 人收藏 0 人点赞

#distributed-training

@ParamSiddh：作为AI基础设施工程师，请学习： - GPU/VRAM基础、量化与批处理 - vLLM/TensorRT-LLM / 推理优化

X AI KOLs Timeline ↗ · 2026-07-01 缓存

一条推文列出AI基础设施工程师必备技能，涵盖GPU基础、推理优化、分布式训练及生产部署。

0 人收藏 0 人点赞

#distributed-training

@PyTorch: 基于PyTorch、Ray、SGLang和NVIDIA Megatron-LM构建，Miles是RadixArk推出的一个用于大规模……的开源框架

X AI KOLs Timeline ↗ · 2026-06-30 缓存

Miles是RadixArk推出的一个开源框架，用于大规模LLM强化学习后训练，集成了PyTorch、Ray、SGLang和NVIDIA Megatron-LM，支持MoE、低精度和容错。

0 人收藏 0 人点赞

#distributed-training

@jimclydego: 哈佛大学刚刚开源了一整套机器学习系统教科书。大多数ML课程教你如何训练模型。这本…

X AI KOLs Timeline ↗ · 2026-06-30 缓存

哈佛大学开源了一套全面的两卷本机器学习系统教科书，涵盖针对现实约束工程化AI系统，包括分布式训练、生产推理、边缘部署和治理，并配有TinyTorch、硬件套件和交互工具等实践组件。

0 人收藏 0 人点赞

#distributed-training

DataStates-LLM：使用可组合状态提供程序实现Transformer模型的可扩展检查点

arXiv cs.AI ↗ · 2026-06-29 缓存

DataStates-LLM提出了一种可扩展的检查点架构，利用可组合的状态提供程序，相比于现有解决方案，吞吐量提升高达4倍，训练时间减少2.2倍。

0 人收藏 0 人点赞

#distributed-training

@PierceZhang34: GitHub 上面一份机器学习系统笔记作者过去几个月，深入研究了机器学习系统，主要围绕大语言模型的训练和推理。这份笔记集涵盖分布式计算、并行化、量化以及PyTorch内部机制，大部分内容来自作者实验 1. 分布式技术 - 涵盖分布式训练…

X AI KOLs Timeline ↗ · 2026-06-20 缓存

分享一份GitHub上的机器学习系统笔记，涵盖大语言模型训练推理相关的分布式计算、并行化、量化和PyTorch内部机制，适合对ML系统感兴趣的学习者。

0 人收藏 0 人点赞

#distributed-training

联合所有GPU来训练一个社区模型

Reddit r/LocalLLaMA ↗ · 2026-06-16

关于从社区汇集GPU以训练大规模AI模型的讨论，质疑其可行性以及现有项目，尽管存在已知瓶颈如延迟和权重中毒。

0 人收藏 0 人点赞

#distributed-training

@jino_rohit: 新的深入博客文章《Collective Communication for Multiple GPUs》。这篇博客应该能帮助你理解通信……

X AI KOLs Following ↗ · 2026-06-13

一篇新的深入博客文章解释了多GPU的集体通信，涵盖广播和归约等原语，并帮助初学者理解如何扩展实验。

0 人收藏 0 人点赞

#distributed-training

@ickma2311: Efficient AI 第19讲：分布式训练（第一部分）这一讲让我更清楚地了解了自注意力……

X AI KOLs Timeline ↗ · 2026-06-10 缓存

第19讲高效AI分布式训练总结，涵盖数据、流水线、张量和序列并行方法，并附有关内存和通信瓶颈的说明。

0 人收藏 0 人点赞

#distributed-training

集群三台Jetson Nano Orin Super

Reddit r/LocalLLaMA ↗ · 2026-06-07

作者宣布了一篇新的博客文章，内容是关于将三台Jetson Nano Orin Super组成集群，用于分布式训练和推理，延续了一个系列，旨在帮助人们使用易于获取的硬件构建小型计算集群。

0 人收藏 0 人点赞

#distributed-training

@anyscalecompute：GPUs在孟买，训练数据在爱荷华？跨区域读取在每个训练周期都带来开销。我们将@Alluxio NVMe缓存放在…

X AI KOLs Following ↗ · 2026-06-04 缓存

Anyscale展示了通过使用Alluxio NVMe缓存和Ray Data，跨区域训练数据读取速度提升了20倍，显示1TB数据的缓存预热读取时间从4,241秒降至208秒。

0 人收藏 0 人点赞

#distributed-training

AgentJet：一个面向智能体强化学习的灵活群组训练框架

arXiv cs.AI ↗ · 2026-06-04 缓存

AgentJet 是一个面向大语言模型智能体强化学习的分布式群组训练框架，它将智能体运行与模型优化解耦，支持异构多智能体强化学习、多任务训练、容错以及实时代码迭代，训练速度提升1.5-10倍。该框架还引入了一个自动化研究系统，能够在大型集群上自主进行为期数天的强化学习研究。

0 人收藏 0 人点赞

#distributed-training

我在verl（一个RL后训练框架）里沉浸了数月，复刻了它，然后停止。写下了内部机制、复刻所需的工具开销以及一个棘手的NCCL错误。

Reddit r/LocalLLaMA ↗ · 2026-06-01

深入探讨字节跳动verl强化学习后训练框架的内部机制，包括编排、单控制器模式以及一个棘手的NCCL错误修复。作者分享了复刻该框架和构建自定义工具的经验教训。

0 人收藏 0 人点赞

distributed-training

提交意见反馈