megakernel

#megakernel

@elliotarledge：对于那些好奇我为什么使用 Kimi Linear 巨型内核而不是 Qwen 3.6 的人，首先看看参数数量。一个是……

X AI KOLs Timeline ↗ · 2026-07-03 缓存

Elliot Arledge 解释了他为什么更喜欢使用 Kimi Linear 巨型内核而不是 Qwen 3.6 来提升内核性能，比较了参数数量、层同步、隐藏维度和架构特定的优化。讨论强调 Kimi Linear 架构更适合巨型内核实现，特别是在 RTX PRO 6000 Blackwell 上进行 batch-1 解码时。

0 人收藏 0 人点赞

#megakernel

@Akashi203: 我开源了 AutoMegaKernel —— 将任意 HuggingFace 模型编译成一个持久的单一兆核，batch-1 解码带宽受限……

X AI KOLs Timeline ↗ · 2026-06-17 缓存

AutoMegaKernel 是一个开源代理框架，能将任意 HuggingFace 模型编译成一个持久的单一兆核（megakernel），将整个前向传播融合到一次 GPU 启动中，从而减少开销。在 L4 和 L40S 等推理级 GPU 上，它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速，同时保证调度没有死锁和竞争条件。

0 人收藏 0 人点赞

#megakernel

@fahdmirza: Luce Megakernel 刚刚证明NVIDIA的效率差距是软件问题而非硬件问题——一台2020年的RTX 3090在220W功耗下…

X AI KOLs Following ↗ · 2026-05-15 缓存

Luce Megakernel 证明NVIDIA的效率差距是软件问题，在RTX 3090上相比llama.cpp实现了1.8倍吞吐量，并以更低的成本匹敌Apple M5 Max的效率。

0 人收藏 0 人点赞

#megakernel

Ada-MK：基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 Ada-MK，一种利用自动化基于有向无环图（DAG）的搜索来消除运行时分支并减少大语言模型（LLM）推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中，该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升，在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞

megakernel

@elliotarledge：对于那些好奇我为什么使用 Kimi Linear 巨型内核而不是 Qwen 3.6 的人，首先看看参数数量。一个是……

@Akashi203: 我开源了 AutoMegaKernel —— 将任意 HuggingFace 模型编译成一个持久的单一兆核，batch-1 解码带宽受限……

@fahdmirza: Luce Megakernel 刚刚证明NVIDIA的效率差距是软件问题而非硬件问题——一台2020年的RTX 3090在220W功耗下…

Ada-MK：基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

提交意见反馈