标签
Kyle Hessling 宣布即将发布 Qwopus-Coder-35B-A3B 编程模型,并通过与 OpenCode 配合使用开发出一款功能完整的实时策略游戏来展示其能力。该模型在 GeForce RTX 5090 上实现了高速和草稿接受率。
使用 RTX 5080 和 RTX 3090 GPU 的配置在 Qwen 3.6 27B Q8 模型上实现了每秒 80 个令牌。
一项性能测试展示了低、自动和高性能模式对 M5 Max MacBook 上大型语言模型(LLM)推理速度的影响,显示出在 Token 生成率和功耗方面存在显著差异。
Luce 为 AMD Strix Halo APU 发布了 DFlash 和 PFlash 支持,在 Qwen3.6-27B 模型上,其解码和预填充速度相比 llama.cpp HIP 分别提升了 2.23 倍和 3.05 倍。
本文征求社区对 HIPfire 在 AMD Strix Halo 硬件上的性能和质量评估,特别是与 llama.cpp 相比的长上下文支持情况。
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。