distributed-inference

标签

Cards List
#distributed-inference

@antirez: 基于我在DwarfStar中实现GLM 5.2的说法,有90%的概率我会合并该分支…

X AI KOLs Following · 2天前

Antirez宣布合并实现GLM 5.2的分支可能性很高,这可能成为运行在512GB Mac Studio上的最佳模型,并可能通过2位量化在分布式128GB MacBook上运行。

0 人收藏 0 人点赞
#distributed-inference

有人刚刚在跨美国6个州的6块消费级GPU上,通过开放互联网以30 tok/s的速度运行了一个744B参数的模型

Reddit r/ArtificialInteligence · 6天前

一位研究人员推出了Shard,在跨开放互联网的6块消费级GPU上分布式的744B参数模型实现了30 tok/s推理,相较之前的方法提升了15-20倍。

0 人收藏 0 人点赞
#distributed-inference

@MiaAI_lab: 一个针对 vLLM 的 PR,允许 MiniMax M3 使用 TP=3。它的 NVFP4 量化版本大小为 260GB - lukealonso/MiniMax-M3-NVFP4 希望这能...

X AI KOLs Timeline · 2026-06-14 缓存

一个对 vLLM 的拉取请求为 MiniMax M3 增加了张量并行度 3 的支持(使用其 NVFP4 量化),使得该模型可以在 3 台 DGX Sparks(每台 87GB 显存)上运行。

0 人收藏 0 人点赞
#distributed-inference

@m_sirovatka: KV Cache 重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 集成到 prime-rl 中,与 vL…

X AI KOLs Following · 2026-06-02 缓存

vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用,支持跨节点前缀缓存,高效服务具有高令牌重用的代理工作负载。

0 人收藏 0 人点赞
#distributed-inference

@dorsa_rohani: 这篇论文可能是分布式推理的圣经 atp

X AI KOLs Timeline · 2026-05-23 缓存

一条推荐一篇被描述为分布式推理圣经的推文。

0 人收藏 0 人点赞
#distributed-inference

将树莓派集群用于学习分布式训练/推理

Reddit r/LocalLLaMA · 2026-05-14

一篇博客文章指导读者如何搭建树莓派集群进行分布式训练和推理,这是系列教程的一部分,旨在利用实惠的硬件让分布式AI变得可及。

0 人收藏 0 人点赞
#distributed-inference

@antirez: 怀着感激宣布,@audreyt刚刚赠送给我一台M5 Max 128GB MacBook Pro!这将让我能够开发DwarfStar4 (…

X AI KOLs Timeline · 2026-05-12

antirez宣布收到audreyt赠送的M5 Max 128GB MacBook Pro,用于开发DwarfStar4,并在M3 Max和M5 Max硬件上进行分布式推理实验。

0 人收藏 0 人点赞
#distributed-inference

专家联邦:面向大语言模型的高效通信分布式推理

Hugging Face Daily Papers · 2026-05-07 缓存

专家联邦(FoE)将混合专家模块重组为独立处理KV头的集群,消除了节点间通信瓶颈,在保持生成质量的同时,将推理吞吐量和延迟提升高达5.2倍。

0 人收藏 0 人点赞
#distributed-inference

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA · 2026-04-21

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈