pipeline-parallelism

#pipeline-parallelism

面向通信高效流水线并行的学习子空间压缩

arXiv cs.LG ↗ · 3天前缓存

本文介绍 MAPL，一种针对流水线并行中激活值进行学习型正交压缩的方法，通过 Stiefel 流形约束和逐阶段分解锚定嵌入，在保持性能的同时降低通信开销。

0 人收藏 0 人点赞

#pipeline-parallelism

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出推测性流水线解码（SPD），一种在单个LLM内部利用流水线并行实现并行令牌推测的框架，避免了传统推测解码中多令牌预测的延迟泡沫和准确度下降问题。

0 人收藏 0 人点赞

#pipeline-parallelism

TLDR AI ↗ · 2026-05-29

SpaceX 正在完成一个用 C 编写的自定义 AI 训练栈，利用流水线并行和 220k 个 GB300 GPU 实现了超过一个数量级的性能提升，并计划开发用于强化学习的推理栈。

0 人收藏 0 人点赞

#pipeline-parallelism

X AI KOLs Timeline ↗ · 2026-05-21 缓存

一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情，该讲座涵盖了基本操作，并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。

0 人收藏 0 人点赞

#pipeline-parallelism

Reddit r/LocalLLaMA ↗ · 2026-05-17

本文在混合Blackwell/Ada GPU集群上对vLLM、SGLang和llama.cpp进行长上下文预填充基准测试，发现vLLM在异构设置上显著优于其他引擎，而SGLang由于FP4支持限制，在使用Ada显卡时会崩溃。

0 人收藏 0 人点赞

#pipeline-parallelism

Reddit r/MachineLearning ↗ · 2026-04-16

ResBM提出了一种基于Transformer的架构，采用残差编码器-解码器瓶颈用于流水线并行训练，在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销，推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞