Luce Megakernel: 为什么没有人谈论这个?
摘要
Lucebox Hub 为本地 LLM 推理提供优化的 CUDA 内核(Megakernel、DFlash、PFlash),在各种模型和 GPU 上相比 llama.cpp 实现了显著的加速(2-10 倍)。
查看缓存全文
缓存时间: 2026/05/16 01:07
面向速度打造的本地 LLM 推理服务器。采用自定义内核、推测性预填充与解码、量化 GGUF 路径。每个项目都是针对特定模型族和硬件目标对我们引擎的全新优化。
Apache 2.0 · Lucebox.com
相似文章
@fahdmirza: Luce Megakernel 刚刚证明NVIDIA的效率差距是软件问题而非硬件问题——一台2020年的RTX 3090在220W功耗下…
Luce Megakernel 证明NVIDIA的效率差距是软件问题,在RTX 3090上相比llama.cpp实现了1.8倍吞吐量,并以更低的成本匹敌Apple M5 Max的效率。
@davideciffa: Lucebox 的大日子!Codex、Hermes 和 OpenClaw 现在可以在搭载 Qwen3.6-27B 的推测性推理引擎上本地运行。F…
Lucebox 宣布,Codex、Hermes 和 OpenClaw 现在可以使用其推测性推理引擎配合 Qwen3.6-27B 模型在本地运行,并提供完整的 OpenAI 工具调用兼容性。
@hardmaru: 人脑极其高效,因为它只激活特定思维所需的神经元。现代LLM…
本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。
@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码
使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。