speedup

#speedup

SpecLA：面向线性注意力模型的高效推测解码

arXiv cs.CL ↗ · 5天前缓存

SpecLA 提出了一种专为有状态线性注意力模型设计的推测解码运行时，在搭载 GDN-1.3B 目标模型的 NVIDIA H100 上，相比自回归解码实现了最高 1.70 倍的端到端加速。

0 人收藏 0 人点赞

#speedup

面向B300的全新FP4注意力内核，速度相比FA4提升最高达1.69倍

Reddit r/LocalLLaMA ↗ · 2026-07-14 缓存

FastVideo团队发布了面向B300的全新FP4注意力内核，速度相比FlashAttention 4提升最高达1.69倍。

0 人收藏 0 人点赞

#speedup

2.5倍更快的Qwen3.6 NVFP4 Unsloth量化版本

Reddit r/LocalLLaMA ↗ · 2026-07-10

Unsloth推出使用NVFP4格式的量化Qwen3.6模型，推理速度提升2.5倍。

0 人收藏 0 人点赞

#speedup

@AYi_AInotes: 两个香港学生，把Karpathy的自动研究框架干到了5倍速。没换更强的模型，也没加更多算力，甚至代码都没怎么改。只是在原来的循环上面，又套了一个循环。这可能是今年对普通Agent开发者最有用的一篇论文，没有之一，具体拆解如下：

X AI KOLs Timeline ↗ · 2026-07-10 缓存

两个香港学生通过在原自动研究框架外再套一层循环，实现了5倍加速，无需更优模型或更多算力，被认为是对普通Agent开发者最有用的论文之一。

0 人收藏 0 人点赞

#speedup

@dejavucoder: 我最新的一篇博客文章 "auto-research with codex: 我如何在使用Codex的GPU Mode中实现比基线快212倍的内核…"

X AI KOLs Timeline ↗ · 2026-07-08 缓存

Sankalp的博客文章，详细描述了他如何使用Codex在GPU Mode的竞赛中为QR分解实现快232倍的GPU内核，并概述了他的自动研究方法论。

0 人收藏 0 人点赞

#speedup

@charles_irl: 如果你对投机解码感兴趣，花点时间钻研这张图表！并阅读 @haoailab.ht 的文章…

X AI KOLs Timeline ↗ · 2026-07-07 缓存

来自 LLM工程师年鉴的屋顶线模型估计了在不同模型和硬件上，不同草稿长度下投机解码的加速效果，并附注指出，当开销显著时，该模型可能低估收益。

0 人收藏 0 人点赞

#speedup

Fable 5 位居 KernelBench 榜首。Jack Clark 称其为“RSI 循环的起点”

Reddit r/singularity ↗ · 2026-07-06

Fable 通过编写高效 CUDA 超内核（megakernel），实现 18.71 倍加速，登上 KernelBench-Mega 榜首，标志着 AI 研发向递归自我改进迈出一步。

0 人收藏 0 人点赞

#speedup

我让Codex优化了oMLX上的DeepSeek V4 Flash 8-bit MLX，实现了约1.6倍的预填充速度和3倍的解码加速。

Reddit r/LocalLLaMA ↗ · 2026-07-05

作者使用Codex优化了oMLX上的DeepSeek V4 Flash 8-bit MLX，实现了约1.6倍的预填充速度和3倍的解码加速。

0 人收藏 0 人点赞

#speedup

@ollama：Gemma 4 在 Apple Silicon 上使用 Ollama 和 MLX 提速近 90%！性能提升得益于改进的多 token 预…

X AI KOLs Following ↗ · 2026-07-01 缓存

Ollama 宣布，Gemma 4 在 Apple Silicon 上使用 MLX 后速度提升近 90%，这得益于默认启用的改进多 token 预测机制，并支持自动调节以避免减速。

0 人收藏 0 人点赞

#speedup

@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库，能让任何LLM响应速度提升80%，这项技术叫推测性解码...

X AI KOLs Following ↗ · 2026-06-27 缓存

DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现（DSpark），通过使用小型“猜测”模型和大型“检查”模型，将LLM响应速度提升高达80%，同时兼顾速度与准确率，无需权衡取舍。

0 人收藏 0 人点赞

#speedup

[研究] JetSpec：通过并行树草案实现推测解码，最高可达9.64倍无损LLM推理加速，超过1000TPS

Reddit r/LocalLLaMA ↗ · 2026-06-25

JetSpec引入了并行树草案技术用于推测解码，在保持无损准确性的同时，实现了LLM推理高达9.64倍的端到端加速，单块B200 GPU上吞吐量达到约1000 TPS。

0 人收藏 0 人点赞

#speedup

我渴望在我的Strix Halo上获得15倍加速

Reddit r/LocalLLaMA ↗ · 2026-06-23

Nvidia声称使用扩散模型在文本生成上实现15倍加速，一次性生成整个文本块。

0 人收藏 0 人点赞

#speedup

GLM 5.2 在 Mac Studio 上的提速 PR

Reddit r/LocalLLaMA ↗ · 2026-06-23

GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升，在高上下文长度下实现超过 100 t/s 的预填充速度，并支持超过 10 万 token 上下文的 4 位量化，详细信息见 oMLX 创建者的拉取请求。

0 人收藏 0 人点赞

#speedup

@_avichawla: 研究人员将KMeans提速200倍。这一新技术也超越了cuML和FAISS等方法。Flash-KMeans是一种…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

Flash-KMeans是精确KMeans的一种I/O感知实现，它围绕现代GPU瓶颈重新设计了算法，通过消除冗余的内存读写，相比cuML实现了33倍加速，相比FAISS实现了200倍加速。

0 人收藏 0 人点赞

#speedup

@AnimaAnandkumar: 这是我们自开始研究神经算子以来一直在强调的一点。我们很快就从简单的...

X AI KOLs Following ↗ · 2026-06-10 缓存

Anima Anandkumar 强调，尽管基准测试简单，但神经算子在像高分辨率 AI 天气预报模型 (FourCastNet) 和核聚变湍流这样的困难实际问题上实现了巨大加速（10,000 到百万倍）。她引用了一篇新论文，表明随着 PDE 任务难度的增加，学习型求解器变得更加经济高效。

0 人收藏 0 人点赞

#speedup

通过向量化和缓存加速NeurASP

arXiv cs.AI ↗ · 2026-06-10 缓存

本文通过实现向量化、批处理和缓存来加速NeurASP神经符号AI框架，在较大任务上实现了多个数量级的提速。

0 人收藏 0 人点赞

#speedup

使用LiteRT引擎运行Gemma 4 E4B —— 文本生成比Q4 GGUF快约2.4倍，图像处理速度基本持平

Reddit r/LocalLLaMA ↗ · 2026-06-02

开发者将Gemma 4 E4B在Google LiteRT引擎上的表现与Q4 GGUF量化版本进行对比，发现由于多令牌预测(MTP)，文本生成速度提升约2.4倍，但图像描述仅提升1.1倍。文章提供了一个面向OpenAI兼容端点的Python封装，但存在确定输出、单会话引擎等限制。

0 人收藏 0 人点赞

#speedup

@atomic_chat_hq: MTP 将 Qwen 速度提升 2.5 倍，在 Atomic Chat 中稠密模型与 MoE 模型在双 RTX 5090 上 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-…

X AI KOLs Timeline ↗ · 2026-05-20 缓存

Atomic Chat 的 MTP 技术利用推测解码，在双 RTX 5090 上将 Qwen 稠密模型的速度提升 2.5 倍，MoE 模型提升 25%，同时保持零精度损失，仅增加约 1 GB 显存，通过一次前向传播草拟并验证多个 token。

0 人收藏 0 人点赞

#speedup

双GPU llama.cpp加速

Reddit r/LocalLLaMA ↗ · 2026-05-17

llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题，在双GPU配置上实现高达40%的速度提升，且无质量损失。

0 人收藏 0 人点赞

#speedup

@NousResearch: 今天我们发布Lighthouse Attention，一种基于选择的分层注意力机制，用于长上下文预训练，实现…

X AI KOLs Following ↗ · 2026-05-15

NousResearch发布Lighthouse Attention，一种基于选择的分层注意力机制，在98K上下文下实现1.4-1.7倍实际时间加速，在单个B200上的512K上下文下，其前向/后向传播比标准注意力快约17倍，并在530M参数的Llama-3模型上跨50B tokens进行了验证。

0 人收藏 0 人点赞

speedup

提交意见反馈