Luce Megakernel: 为什么没有人谈论这个?

Reddit r/LocalLLaMA 工具

摘要

Lucebox Hub 为本地 LLM 推理提供优化的 CUDA 内核(Megakernel、DFlash、PFlash),在各种模型和 GPU 上相比 llama.cpp 实现了显著的加速(2-10 倍)。

每个人都在谈论 Luce DFlash 和 PFlash。我刚刚发现了他们的 megakernel,它似乎是和 DFlash、PFlash 一起发布的。似乎在 NVIDIA GPU 上,它带来了 1.8 倍的速度提升和更高的能效,与在 Apple Silicon 上达到的效果相当!为什么没有人谈论这个?他们说他们开发了一种避免在每层边界之间进行 CPU 派遣的方法。在 lcpp 中,针对 CUDA 实现,每个 token 大约有 100 次内核启动。使用的电量非常惊人,尤其是在人们使用强大的多 GPU 设置时。这难道不是很重大吗?我是不是漏掉了什么?lcpp 不是有 fused delta kernel 吗?这个和它类似吗?我记得读过相关内容,但不知道它现在的状态如何。
查看原文
查看缓存全文

缓存时间: 2026/05/16 01:07

面向速度打造的本地 LLM 推理服务器。采用自定义内核、推测性预填充与解码、量化 GGUF 路径。每个项目都是针对特定模型族和硬件目标对我们引擎的全新优化。

Apache 2.0 · Lucebox.com

相似文章