multi-gpu

#multi-gpu

Wan-Streamer v0.2：更高分辨率，相同延迟

Hugging Face Daily Papers ↗ · 2天前缓存

Wan-Streamer v0.2 是一个保持延迟不变升级的端到端音视频交互模型，通过多GPU思考者-执行者架构将输出分辨率从192x336提高到640x368，同时维持约200毫秒的模型端延迟。

0 人收藏 0 人点赞

#multi-gpu

GLM5.2 在 5 块 Pro 6000 和一块 5090 上的昂贵旅程

Reddit r/LocalLLaMA ↗ · 3天前

一篇关于在 5 块 AMD Radeon Pro 6000 GPU 和一块 NVIDIA RTX 5090 上运行 GLM5.2 语言模型的报告，详细介绍了高昂的成本和技术挑战。

0 人收藏 0 人点赞

#multi-gpu

@TheAhmadOsman: 自2023年以来，我的使命就是教导人们并帮助他们运行自己的AI。2026年6月将标志着…

X AI KOLs Following ↗ · 2026-06-28 缓存

Ahmad (@TheAhmadOsman) 宣布了一篇博客文章，涵盖 llama.cpp、vLLM 和 ExLlamaV2 等推理引擎，重点关注多 GPU 设置、张量并行以及批处理推理，以优化 AI 模型性能。

0 人收藏 0 人点赞

#multi-gpu

双Radeon R9700——在llama.cpp上运行Qwen 3.6 27B Q8 MTP

Reddit r/LocalLLaMA ↗ · 2026-06-21

关于在使用ROCm的llama.cpp上，于双AMD Radeon R9700配置下运行Qwen 3.6 27B Q8模型的技术报告，包括性能基准测试和配置详情。

0 人收藏 0 人点赞

#multi-gpu

48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA ↗ · 2026-06-20

一位用户分享了在双GPU配置（RTX 4090 + RTX 3090）上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置，在250k上下文下实现了75-100 t/s和1500 pp。

0 人收藏 0 人点赞

#multi-gpu

在本地运行GLM 5.x的最便宜方式（不使用统一内存系统）？

Reddit r/LocalLLaMA ↗ · 2026-06-17

关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论，包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。

0 人收藏 0 人点赞

#multi-gpu

我不知道居然可以同时编译llamacpp来运行CUDA和Vulkan..

Reddit r/LocalLLaMA ↗ · 2026-06-16

作者发现同时使用CUDA和Vulkan后端编译llama.cpp是可行的，解码速度提升了约10% tokens/秒。他们计划运行进一步基准测试来评估其优势。

0 人收藏 0 人点赞

#multi-gpu

我意外地用一条隐藏的PCIe 2.0 x4插槽削弱了4x RTX 3090 LLM设备的性能，修复后使Mistral 128B的性能翻倍。

Reddit r/LocalLLaMA ↗ · 2026-06-04

用户发现，Threadripper 工作站主板上一处隐藏的 PCIe 2.0 x4 电气限制导致四块 RTX 3090 中的一块性能受限，从而影响了多 GPU 大语言模型推理性能。通过调整插槽布局并切换至张量分裂模式，Mistral 128B 的吞吐量从约 11 tok/s 翻倍至约 24.7 tok/s。

0 人收藏 0 人点赞

#multi-gpu