标签
一条推文讨论了使用类似S3的对象存储和内容寻址构建具有无限吞吐量的事务数据库的想法,其中块被并行写入,根哈希定期更新。
Amazon 推出了“Resilient Network Graphs”(RNG),这是一种数据中心网络设计,可将硬件需求降低 69%,并将吞吐量提升 33%。自去年悄然部署以来,现已成为大多数 AWS 工作负载的默认网络。
使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。
Open-dLLM 将 Qwen3.6 适配为使用扩散式生成,在 RTX 5090 上对于短序列实现了超过 3,000 tok/s 的吞吐量,相关代码已在 GitHub 上发布。
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。