标签
Antirez宣布合并实现GLM 5.2的分支可能性很高,这可能成为运行在512GB Mac Studio上的最佳模型,并可能通过2位量化在分布式128GB MacBook上运行。
一位研究人员推出了Shard,在跨开放互联网的6块消费级GPU上分布式的744B参数模型实现了30 tok/s推理,相较之前的方法提升了15-20倍。
一个对 vLLM 的拉取请求为 MiniMax M3 增加了张量并行度 3 的支持(使用其 NVFP4 量化),使得该模型可以在 3 台 DGX Sparks(每台 87GB 显存)上运行。
vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用,支持跨节点前缀缓存,高效服务具有高令牌重用的代理工作负载。
一篇博客文章指导读者如何搭建树莓派集群进行分布式训练和推理,这是系列教程的一部分,旨在利用实惠的硬件让分布式AI变得可及。
antirez宣布收到audreyt赠送的M5 Max 128GB MacBook Pro,用于开发DwarfStar4,并在M3 Max和M5 Max硬件上进行分布式推理实验。
专家联邦(FoE)将混合专家模块重组为独立处理KV头的集群,消除了节点间通信瓶颈,在保持生成质量的同时,将推理吞吐量和延迟提升高达5.2倍。
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。