Luce Megakernel: 为什么没有人谈论这个？

Reddit r/LocalLLaMA 2026/05/15 23:15 工具

inference llm optimization cuda speculative-decoding open-source github

摘要

Lucebox Hub 为本地 LLM 推理提供优化的 CUDA 内核（Megakernel、DFlash、PFlash），在各种模型和 GPU 上相比 llama.cpp 实现了显著的加速（2-10 倍）。

每个人都在谈论 Luce DFlash 和 PFlash。我刚刚发现了他们的 megakernel，它似乎是和 DFlash、PFlash 一起发布的。似乎在 NVIDIA GPU 上，它带来了 1.8 倍的速度提升和更高的能效，与在 Apple Silicon 上达到的效果相当！为什么没有人谈论这个？他们说他们开发了一种避免在每层边界之间进行 CPU 派遣的方法。在 lcpp 中，针对 CUDA 实现，每个 token 大约有 100 次内核启动。使用的电量非常惊人，尤其是在人们使用强大的多 GPU 设置时。这难道不是很重大吗？我是不是漏掉了什么？lcpp 不是有 fused delta kernel 吗？这个和它类似吗？我记得读过相关内容，但不知道它现在的状态如何。

查看原文

查看缓存全文

缓存时间: 2026/05/16 01:07

面向速度打造的本地 LLM 推理服务器。采用自定义内核、推测性预填充与解码、量化 GGUF 路径。每个项目都是针对特定模型族和硬件目标对我们引擎的全新优化。

Apache 2.0 · Lucebox.com

Luce Megakernel: 为什么没有人谈论这个？

相似文章

@fahdmirza: Luce Megakernel 刚刚证明NVIDIA的效率差距是软件问题而非硬件问题——一台2020年的RTX 3090在220W功耗下…

@davideciffa: Lucebox 的大日子！Codex、Hermes 和 OpenClaw 现在可以在搭载 Qwen3.6-27B 的推测性推理引擎上本地运行。F…

@hardmaru: 人脑极其高效，因为它只激活特定思维所需的神经元。现代LLM…

@pupposandro：在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU（gfx1151，……）发布了 DFlash + PFlash

在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码

提交意见反馈