amd-gpu

#amd-gpu

llama.cpp b9158 刚刚发布了 RDNA3 Flash Attention 修复

Reddit r/LocalLLaMA ↗ · 23小时前

llama.cpp b9158 已发布，修复了 RDNA3 GPU 上的 Flash Attention 问题，提升了 AMD 用户的性能。

0 人收藏 0 人点赞

#amd-gpu

Reddit r/LocalLLaMA ↗ · 昨天

一位用户分享了通过命令'Disable-mmagent -mc'禁用内存压缩来解决Windows 11中AMD GPU运行AI模型时的性能瓶颈问题。

0 人收藏 0 人点赞

#amd-gpu

Reddit r/LocalLLaMA ↗ · 2天前

在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果，实现了 52.8 tokens/s TG 和 1569 tokens/s PP，无量化或 MTP，证明了在 2018 年硬件上用于代理任务的可行性。

0 人收藏 0 人点赞

#amd-gpu

Reddit r/LocalLLaMA ↗ · 3天前

一名用户讨论了在 AMD 硬件上进行本地单用户推理时，使用 vLLM 与 llama.cpp 之间的权衡，质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。

0 人收藏 0 人点赞

#amd-gpu

X AI KOLs Following ↗ · 3天前

一套新工具集（DFlash + PFlash）在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度，展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。

0 人收藏 0 人点赞

#amd-gpu

Reddit r/MachineLearning ↗ · 2026-05-07

作者询问2026年中AMD的ROCm生态系统在AI训练领域的当前可行性，将其与NVIDIA的CUDA进行比较，并询问它是否已达到PyTorch的“开箱即用”阶段。

0 人收藏 0 人点赞

#amd-gpu

Reddit r/LocalLLaMA ↗ · 2026-04-20

用户演示了在 AMD 7900 XTX 显卡上本地自主运行 Qwen 3.6 并创建 Android 应用——这一曾被视为科幻的场景如今已成为现实。

0 人收藏 0 人点赞