@pupposandro: PFlash 现在在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)。- 短上下文下 111 tok/s 解码 - 128K TTFT…

X AI KOLs Following 2026/05/14 12:57 工具

inference moe cuda ggml pflash poolside-ai rtx-3090

摘要

PFlash 现在支持在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)，实现了 111 tok/s 的解码速度，预填充速度比 llama.cpp 快 5.4 倍，并在高达 131K 上下文中通过 NIAH 测试。

PFlash 现在在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)。- 短上下文下 111 tok/s 解码 - 128K TTFT 耗时 15.91 秒，预填充速度比 llama.cpp 快 5.4 倍 - 在所有 (ctx, keep) 点至 131K 通过 NIAH 测试 - PFlash 支持的第一个 MoE 目标 - 手写 CUDA，仅使用 ggml，无 libllama - 与 @eisokant、@eric_alcaide 以及 @poolsideai 团队其他成员的良好合作。期待在她们出色的编码模型上做更多工作。仓库和 GGUF 模型位于第一条评论。

查看原文

查看缓存全文

缓存时间: 2026/05/15 23:10

PFlash 现已 @poolsideai 的 Laguna-XS.2（33B-A3B MoE）运行在单张 RTX 3090 上。

短上下文解码速度达 111 tok/s
128K TTFT 仅需 15.91 秒，预填充速度比 llama.cpp 快 5.4 倍
NIAH 在所有（上下文长度、保留位置）点上通过测试，最高达 131K
这是 PFlash 支持的首个 MoE 模型目标
手动编写的 CUDA，仅依赖 ggml，无需 libllama

感谢与 @eisokant、@eric_alcaide 以及 @poolsideai 团队其他成员的出色合作。期待在他们的优秀代码模型上继续努力。

仓库和 GGUF 文件见首条评论。

仓库：http://github.com/Luce-Org/lucebox-hub… GGUF：http://huggingface.co/Lucebox/Laguna-XS.2-GGUF…

谢谢！

@pupposandro: PFlash 现在在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)。- 短上下文下 111 tok/s 解码 - 128K TTFT…

相似文章

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

@pupposandro：在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU（gfx1151，……）发布了 DFlash + PFlash

AMD Strix Halo 上的 Luce DFlash + PFlash：Qwen3.6-27B 解码速度提升 2.23 倍，预填充速度提升 3.05 倍（相较于 llama.cpp HIP）

BeeLlama v0.2.0 – DFlash 重大更新。单张 RTX 3090：Qwen 3.6 27B 最高 164 tps（4.40 倍），Gemma 4 31B 最高 177.8 tps（4.93 倍）。提示处理速度接近基线。

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

提交意见反馈