pipeline-parallelism

标签

Cards List
#pipeline-parallelism

面向通信高效流水线并行的学习子空间压缩

arXiv cs.LG · 3天前 缓存

本文介绍 MAPL,一种针对流水线并行中激活值进行学习型正交压缩的方法,通过 Stiefel 流形约束和逐阶段分解锚定嵌入,在保持性能的同时降低通信开销。

0 人收藏 0 人点赞
#pipeline-parallelism

推测性流水线解码:通过流水线并行实现更高准确度和零泡沫推测

arXiv cs.CL · 2026-06-01 缓存

本文提出推测性流水线解码(SPD),一种在单个LLM内部利用流水线并行实现并行令牌推测的框架,避免了传统推测解码中多令牌预测的延迟泡沫和准确度下降问题。

0 人收藏 0 人点赞
#pipeline-parallelism

SpaceX 即将完成内部 AI 训练栈 V1.0 的编写,使用 C 语言(2 分钟阅读)

TLDR AI · 2026-05-29

SpaceX 正在完成一个用 C 编写的自定义 AI 训练栈,利用流水线并行和 220k 个 GB300 GPU 实现了超过一个数量级的性能提升,并计划开发用于强化学习的推理栈。

0 人收藏 0 人点赞
#pipeline-parallelism

@levidiamode: Day 138/365 of GPU Programming 今年我最喜欢的讲座之一是斯坦福大学的CS336第7讲关于GPU…

X AI KOLs Timeline · 2026-05-21 缓存

一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情,该讲座涵盖了基本操作,并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。

0 人收藏 0 人点赞
#pipeline-parallelism

在混合Blackwell/Ada集群上对vLLM、SGLang和llama.cpp进行基准测试

Reddit r/LocalLLaMA · 2026-05-17

本文在混合Blackwell/Ada GPU集群上对vLLM、SGLang和llama.cpp进行长上下文预填充基准测试,发现vLLM在异构设置上显著优于其他引擎,而SGLang由于FP4支持限制,在使用Ada显卡时会崩溃。

0 人收藏 0 人点赞
#pipeline-parallelism

ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]

Reddit r/MachineLearning · 2026-04-16

ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈