标签
本文介绍 MAPL,一种针对流水线并行中激活值进行学习型正交压缩的方法,通过 Stiefel 流形约束和逐阶段分解锚定嵌入,在保持性能的同时降低通信开销。
本文提出推测性流水线解码(SPD),一种在单个LLM内部利用流水线并行实现并行令牌推测的框架,避免了传统推测解码中多令牌预测的延迟泡沫和准确度下降问题。
SpaceX 正在完成一个用 C 编写的自定义 AI 训练栈,利用流水线并行和 220k 个 GB300 GPU 实现了超过一个数量级的性能提升,并计划开发用于强化学习的推理栈。
一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情,该讲座涵盖了基本操作,并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。
本文在混合Blackwell/Ada GPU集群上对vLLM、SGLang和llama.cpp进行长上下文预填充基准测试,发现vLLM在异构设置上显著优于其他引擎,而SGLang由于FP4支持限制,在使用Ada显卡时会崩溃。
ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。