@pupposandro: PFlash 现在在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)。- 短上下文下 111 tok/s 解码 - 128K TTFT…

X AI KOLs Following 工具

摘要

PFlash 现在支持在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE),实现了 111 tok/s 的解码速度,预填充速度比 llama.cpp 快 5.4 倍,并在高达 131K 上下文中通过 NIAH 测试。

PFlash 现在在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)。- 短上下文下 111 tok/s 解码 - 128K TTFT 耗时 15.91 秒,预填充速度比 llama.cpp 快 5.4 倍 - 在所有 (ctx, keep) 点至 131K 通过 NIAH 测试 - PFlash 支持的第一个 MoE 目标 - 手写 CUDA,仅使用 ggml,无 libllama - 与 @eisokant、@eric_alcaide 以及 @poolsideai 团队其他成员的良好合作。期待在她们出色的编码模型上做更多工作。仓库和 GGUF 模型位于第一条评论。
查看原文
查看缓存全文

缓存时间: 2026/05/15 23:10

PFlash 现已 @poolsideai 的 Laguna-XS.2(33B-A3B MoE)运行在单张 RTX 3090 上。

  • 短上下文解码速度达 111 tok/s
  • 128K TTFT 仅需 15.91 秒,预填充速度比 llama.cpp 快 5.4 倍
  • NIAH 在所有(上下文长度、保留位置)点上通过测试,最高达 131K
  • 这是 PFlash 支持的首个 MoE 模型目标
  • 手动编写的 CUDA,仅依赖 ggml,无需 libllama

感谢与 @eisokant、@eric_alcaide 以及 @poolsideai 团队其他成员的出色合作。期待在他们的优秀代码模型上继续努力。

仓库和 GGUF 文件见首条评论。

仓库:http://github.com/Luce-Org/lucebox-hub… GGUF:http://huggingface.co/Lucebox/Laguna-XS.2-GGUF…

谢谢!

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。