distributed-training

标签

Cards List
#distributed-training

我在verl(一个RL后训练框架)里沉浸了数月,复刻了它,然后停止。写下了内部机制、复刻所需的工具开销以及一个棘手的NCCL错误。

Reddit r/LocalLLaMA · 2天前

深入探讨字节跳动verl强化学习后训练框架的内部机制,包括编排、单控制器模式以及一个棘手的NCCL错误修复。作者分享了复刻该框架和构建自定义工具的经验教训。

0 人收藏 0 人点赞
#distributed-training

@TheNoise2Signal: 前沿训练如何用到2048块GPU?因为可以从五个维度拆分工作——在大规模训练中……

X AI KOLs Timeline · 2026-05-25 缓存

解释了前沿AI训练如何通过五个维度分配工作来使用多达2048块GPU,揭开了模型训练框架的神秘面纱。

0 人收藏 0 人点赞
#distributed-training

@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729

X AI KOLs Timeline · 2026-05-24 缓存

本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。

0 人收藏 0 人点赞
#distributed-training

DynaTrain: 面向弹性大语言模型训练的快速在线并行度切换

arXiv cs.LG · 2026-05-20

DynaTrain 是一个分布式训练系统,能够在大语言模型上实现亚秒级在线并行度重配置,通过虚拟参数空间抽象,使转换速度比现有方法快多达三个数量级。

0 人收藏 0 人点赞
#distributed-training

Orth-Dion: 消除分布式低秩谱优化中的几何失配

arXiv cs.LG · 2026-05-19 缓存

本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。

0 人收藏 0 人点赞
#distributed-training

SignMuon: 通信高效的分布式Muon优化

arXiv cs.LG · 2026-05-19 缓存

SignMuon是一种1位、感知矩阵的分布式训练优化器,它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架,在float32基础上实现32倍带宽缩减,同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。

0 人收藏 0 人点赞
#distributed-training

@tom_doerr: 将AI训练分布到点对点代理网络中 https://github.com/hyperspaceai/agi…

X AI KOLs Timeline · 2026-05-15 缓存

Hyperspace推出了一种点对点代理网络,用于跨消费设备进行分布式AI训练,实现高压缩且无需中央基础设施的协作模型训练。

0 人收藏 0 人点赞
#distributed-training

@PyTorch: At #PyTorchCon Europe 2026, @ezyang (@Meta) explains why many developers find tensor parallelism difficult to work with…

X AI KOLs Following · 2026-05-14 缓存

At PyTorchCon Europe 2026, Edward Yang explains PyTorch's new pre-compilation support for distributed training and SPMD type system to help developers write correct tensor parallelism code, addressing common pitfalls in gradient correctness.

0 人收藏 0 人点赞
#distributed-training

将树莓派集群用于学习分布式训练/推理

Reddit r/LocalLLaMA · 2026-05-14

一篇博客文章指导读者如何搭建树莓派集群进行分布式训练和推理,这是系列教程的一部分,旨在利用实惠的硬件让分布式AI变得可及。

0 人收藏 0 人点赞
#distributed-training

@PyTorch: PyTorch 2.12 在编译、导出、分布式训练和加速器支持方面引入重大更新。亮点…

X AI KOLs Following · 2026-05-13

PyTorch 2.12 版本包括对编译、导出、分布式训练和加速器支持的重大更新,CUDA 上批量化 linalg.eigh 速度提升高达 100 倍,并新增了 torch.accelerator.Graph 等 API。

0 人收藏 0 人点赞
#distributed-training

@_vmlops: 微软研究人员构建了此工具用于训练530B参数模型 DeepSpeed 是一个深度学习优化库,……

X AI KOLs Timeline · 2026-05-13 缓存

DeepSpeed 是一个由微软开发的开源深度学习优化库,能够高效地实现大规模模型的分布式训练和推理,具备 ZeRO、3D 并行和 Mixture-of-Experts 等特性。

0 人收藏 0 人点赞
#distributed-training

DisagMoE:通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练

arXiv cs.LG · 2026-05-13 缓存

本文介绍了 DisagMoE,一种 MoE 训练系统,通过将注意力层和前馈网络(FFN)层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现,通过解决节点间通信瓶颈,在 H800 集群上实现了高达 1.8 倍的加速。

0 人收藏 0 人点赞
#distributed-training

Decoupled DiLoCo:弹性分布式 AI 训练的新前沿

Google DeepMind Blog · 2026-04-22 缓存

DeepMind 推出 Decoupled DiLoCo,这是一种新型分布式 AI 训练架构,通过隔离硬件故障,实现大型模型在全球分散数据中心之间的弹性、低带宽训练。

0 人收藏 0 人点赞
#distributed-training

ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]

Reddit r/MachineLearning · 2026-04-16

ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞
#distributed-training

保持 Token 流动:16 个开源 RL 库的经验教训

Hugging Face Blog · 2026-03-10 缓存

Hugging Face 发布了对 16 个开源强化学习库的全面分析,研究异步 RL 训练的架构模式,并为 TRL 的异步训练器设计经验教训,以解决生成瓶颈和权重同步挑战。

0 人收藏 0 人点赞
#distributed-training

Ulysses 序列并行:百万Token上下文训练

Hugging Face Blog · 2026-03-09 缓存

Ulysses 序列并行是一种用于训练具有百万Token上下文的大语言模型的技术,通过将序列块分布在多个GPU上来降低内存需求,实现高效的长上下文训练。它与HuggingFace Accelerate、Transformers Trainer和TRL集成,支持Flash Attention和DeepSpeed ZeRO。

0 人收藏 0 人点赞
#distributed-training

大规模神经网络的训练技术

OpenAI Blog · 2022-06-09 缓存

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术,涵盖数据并行、管道并行、张量并行和专家混合等方法,以克服工程和可扩展性挑战。

0 人收藏 0 人点赞
#distributed-training

PyTorch分布式:加速数据并行训练的实践经验

Papers with Code Trending · 2020-06-28 缓存

本文详细介绍了PyTorch分布式数据并行模块的设计与优化,重点阐述了梯度分桶(gradient bucketing)和计算-通信重叠等技术,这些技术使系统在使用256个GPU时实现了接近线性的可扩展性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈