parallelism

#parallelism

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following ↗ · 4天前缓存

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

0 人收藏 0 人点赞

#parallelism

@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…

X AI KOLs Following ↗ · 4天前缓存

解释推理内核与训练不同，Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。

0 人收藏 0 人点赞

#parallelism

@yukangchen_: 很高兴分享我们的新博客：利用并行化扩展视频训练 https://research.nvidia.com/labs/eai/blogs/scali…

X AI KOLs Following ↗ · 2026-06-08 缓存

这篇来自NVIDIA Research的博客讨论了序列并行化如何扩展长视频训练系统，既支持理解任务也支持生成任务，解决了在多GPU上适配超长视频序列的挑战。

0 人收藏 0 人点赞

#parallelism

构建低延迟和高吞吐量AI代理的经验教训

Reddit r/AI_Agents ↗ · 2026-06-05

本文分享了构建低延迟、高吞吐量AI代理的实用经验，包括工作负载估算、令牌减少、并行处理、微服务以及处理LLM故障等。

0 人收藏 0 人点赞

#parallelism

@swyx：Kakuna：一种仅知道如何加固代码库的技能清单 / 用它规划，然后让它 / 目标一天，它……

X AI KOLs Following ↗ · 2026-05-22 缓存

Kakuna 是一种通过自动化繁琐任务来加固代码库的技能，它能生成可用于生产的提交并附带审计记录，同时将对如何为人类和智能体访问设计应用的观点编码到其中，专注于子智能体并行和“鲻鱼工厂”方法。

0 人收藏 0 人点赞

#parallelism

@levidiamode: Day 138/365 of GPU Programming 今年我最喜欢的讲座之一是斯坦福大学的CS336第7讲关于GPU…

X AI KOLs Timeline ↗ · 2026-05-21 缓存

一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情，该讲座涵盖了基本操作，并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。

0 人收藏 0 人点赞

#parallelism

DynaTrain: 面向弹性大语言模型训练的快速在线并行度切换

arXiv cs.LG ↗ · 2026-05-20

DynaTrain 是一个分布式训练系统，能够在大语言模型上实现亚秒级在线并行度重配置，通过虚拟参数空间抽象，使转换速度比现有方法快多达三个数量级。

0 人收藏 0 人点赞

#parallelism

SNLP: 基于结构化牛顿校正的层并行推理

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

本文介绍了SNLP，这是一个通过用结构化近似替代精确牛顿校正来实现Transformer层并行推理的框架，在0.5B模型上实现了高达2.3倍的加速，同时降低了困惑度。

0 人收藏 0 人点赞

#parallelism

预训练并行化与失败训练运行笔记（12分钟阅读）

TLDR AI ↗ · 2026-05-18 缓存

一篇技术深度文章，探讨大型语言模型中预训练运行失败的常见原因，包括专家路由中的因果破坏问题和数值精度错误，并附有Llama 4、Gemini 2 Pro和GPT-4的示例。

0 人收藏 0 人点赞

#parallelism

OxCaml 中的数据竞态自由

Lobsters Hottest ↗ · 2026-05-16 缓存

OxCaml 是 Jane Street 对 OCaml 编译器的分支，它引入了编译时对数据竞态的保证，从而在不增加运行时开销的情况下实现顺序一致性。这篇博文解释了新的模式轴及其对并行编程的影响。

0 人收藏 0 人点赞

#parallelism

DisagMoE：通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练

arXiv cs.LG ↗ · 2026-05-13 缓存

本文介绍了 DisagMoE，一种 MoE 训练系统，通过将注意力层和前馈网络（FFN）层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现，通过解决节点间通信瓶颈，在 H800 集群上实现了高达 1.8 倍的加速。

0 人收藏 0 人点赞

#parallelism

大规模神经网络的训练技术

OpenAI Blog ↗ · 2022-06-09 缓存

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术，涵盖数据并行、管道并行、张量并行和专家混合等方法，以克服工程和可扩展性挑战。

0 人收藏 0 人点赞

parallelism

提交意见反馈