distributed-inference

#distributed-inference

@antirez: 基于我在DwarfStar中实现GLM 5.2的说法，有90%的概率我会合并该分支…

X AI KOLs Following ↗ · 2天前

Antirez宣布合并实现GLM 5.2的分支可能性很高，这可能成为运行在512GB Mac Studio上的最佳模型，并可能通过2位量化在分布式128GB MacBook上运行。

0 人收藏 0 人点赞

#distributed-inference

有人刚刚在跨美国6个州的6块消费级GPU上，通过开放互联网以30 tok/s的速度运行了一个744B参数的模型

Reddit r/ArtificialInteligence ↗ · 6天前

一位研究人员推出了Shard，在跨开放互联网的6块消费级GPU上分布式的744B参数模型实现了30 tok/s推理，相较之前的方法提升了15-20倍。

0 人收藏 0 人点赞

#distributed-inference

@MiaAI_lab: 一个针对 vLLM 的 PR，允许 MiniMax M3 使用 TP=3。它的 NVFP4 量化版本大小为 260GB - lukealonso/MiniMax-M3-NVFP4 希望这能...

X AI KOLs Timeline ↗ · 2026-06-14 缓存

一个对 vLLM 的拉取请求为 MiniMax M3 增加了张量并行度 3 的支持（使用其 NVFP4 量化），使得该模型可以在 3 台 DGX Sparks（每台 87GB 显存）上运行。

0 人收藏 0 人点赞

#distributed-inference

@m_sirovatka: KV Cache 重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 集成到 prime-rl 中，与 vL…

X AI KOLs Following ↗ · 2026-06-02 缓存

vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用，支持跨节点前缀缓存，高效服务具有高令牌重用的代理工作负载。

0 人收藏 0 人点赞

#distributed-inference

@dorsa_rohani: 这篇论文可能是分布式推理的圣经 atp

X AI KOLs Timeline ↗ · 2026-05-23 缓存

一条推荐一篇被描述为分布式推理圣经的推文。

0 人收藏 0 人点赞

#distributed-inference

将树莓派集群用于学习分布式训练/推理

Reddit r/LocalLLaMA ↗ · 2026-05-14

一篇博客文章指导读者如何搭建树莓派集群进行分布式训练和推理，这是系列教程的一部分，旨在利用实惠的硬件让分布式AI变得可及。

0 人收藏 0 人点赞

#distributed-inference

@antirez: 怀着感激宣布，@audreyt刚刚赠送给我一台M5 Max 128GB MacBook Pro！这将让我能够开发DwarfStar4 (…

X AI KOLs Timeline ↗ · 2026-05-12

antirez宣布收到audreyt赠送的M5 Max 128GB MacBook Pro，用于开发DwarfStar4，并在M3 Max和M5 Max硬件上进行分布式推理实验。

0 人收藏 0 人点赞

#distributed-inference

专家联邦：面向大语言模型的高效通信分布式推理

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

专家联邦（FoE）将混合专家模块重组为独立处理KV头的集群，消除了节点间通信瓶颈，在保持生成质量的同时，将推理吞吐量和延迟提升高达5.2倍。

0 人收藏 0 人点赞

#distributed-inference

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA ↗ · 2026-04-21

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型，我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本；当前每台设备均在运行 GLM 5.1 Q4（正在排查为何 Exo 无法加载 Q8 版本）。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。

0 人收藏 0 人点赞

distributed-inference

提交意见反馈