@pupposandro: PFlash 现在在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)。- 短上下文下 111 tok/s 解码 - 128K TTFT…
摘要
PFlash 现在支持在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE),实现了 111 tok/s 的解码速度,预填充速度比 llama.cpp 快 5.4 倍,并在高达 131K 上下文中通过 NIAH 测试。
查看缓存全文
缓存时间: 2026/05/15 23:10
PFlash 现已 @poolsideai 的 Laguna-XS.2(33B-A3B MoE)运行在单张 RTX 3090 上。
- 短上下文解码速度达 111 tok/s
- 128K TTFT 仅需 15.91 秒,预填充速度比 llama.cpp 快 5.4 倍
- NIAH 在所有(上下文长度、保留位置)点上通过测试,最高达 131K
- 这是 PFlash 支持的首个 MoE 模型目标
- 手动编写的 CUDA,仅依赖 ggml,无需 libllama
感谢与 @eisokant、@eric_alcaide 以及 @poolsideai 团队其他成员的出色合作。期待在他们的优秀代码模型上继续努力。
仓库和 GGUF 文件见首条评论。
仓库:http://github.com/Luce-Org/lucebox-hub… GGUF:http://huggingface.co/Lucebox/Laguna-XS.2-GGUF…
谢谢!
相似文章
@pupposandro: https://x.com/pupposandro/status/2054241934164492328
该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持,并展示了使用 ROCm 时推理性能的显著提升。
@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
AMD Strix Halo 上的 Luce DFlash + PFlash:Qwen3.6-27B 解码速度提升 2.23 倍,预填充速度提升 3.05 倍(相较于 llama.cpp HIP)
Luce 为 AMD Strix Halo APU 发布了 DFlash 和 PFlash 支持,在 Qwen3.6-27B 模型上,其解码和预填充速度相比 llama.cpp HIP 分别提升了 2.23 倍和 3.05 倍。
BeeLlama v0.2.0 – DFlash 重大更新。单张 RTX 3090:Qwen 3.6 27B 最高 164 tps(4.40 倍),Gemma 4 31B 最高 177.8 tps(4.93 倍)。提示处理速度接近基线。
BeeLlama v0.2.0 引入了 DFlash 投机解码的重大改进,在单张 RTX 3090 上,Gemma 4 31B 加速最高达 4.93 倍,Qwen 3.6 27B 加速最高达 4.40 倍,且提示处理速度接近基线。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。