speculative-decoding

标签

Cards List
#speculative-decoding

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline · 6小时前

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞
#speculative-decoding

CATS:面向内存受限 LLM 推理加速的级联自适应树猜测

arXiv cs.LG · 15小时前 缓存

本文介绍了 CATS,这是一种级联自适应树猜测框架,旨在通过优化内存使用同时保持高 Token 接受率,加速内存受限边缘设备上的 LLM 推理。

0 人收藏 0 人点赞
#speculative-decoding

注意力漂移:自回归投机解码模型学到了什么

Reddit r/LocalLLaMA · 昨天 缓存

本文指出了自回归投机解码模型中的“注意力漂移”现象,即草稿模型的注意力从提示词转移到了其自身生成的令牌上。作者提出了架构上的改进,例如后归一化(Post-norm)和 RMSNorm,这些改进在各种基准测试中提高了接受率和鲁棒性。

0 人收藏 0 人点赞
#speculative-decoding

AMD Strix Halo 上的 Luce DFlash + PFlash:Qwen3.6-27B 解码速度提升 2.23 倍,预填充速度提升 3.05 倍(相较于 llama.cpp HIP)

Reddit r/LocalLLaMA · 昨天

Luce 为 AMD Strix Halo APU 发布了 DFlash 和 PFlash 支持,在 Qwen3.6-27B 模型上,其解码和预填充速度相比 llama.cpp HIP 分别提升了 2.23 倍和 3.05 倍。

0 人收藏 0 人点赞
#speculative-decoding

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

X AI KOLs Timeline · 昨天 缓存

该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持,并展示了使用 ROCm 时推理性能的显著提升。

0 人收藏 0 人点赞
#speculative-decoding

Gemma 4 MTP 与 DFlash 在单张 H100 上:密集模型 vs MoE 模型结果

Reddit r/LocalLLaMA · 昨天

该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较,结果显示 MTP 在密集模型上更快,而 DFlash 在 MoE 模型上更快。

0 人收藏 0 人点赞
#speculative-decoding

PARD-2:面向双模态投机解码的目标对齐并行草稿模型

arXiv cs.CL · 昨天 缓存

本文介绍了 PARD-2,这是一种双模态投机解码框架,利用目标对齐的并行草稿模型加速大语言模型(LLM)推理,在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。

0 人收藏 0 人点赞
#speculative-decoding

B9109:mtp 与 mmproj 的提前修复即将到来?看来确实如此

Reddit r/LocalLLaMA · 昨天

即将发布的更新将通过在草稿上下文中启用图像处理,解决多模态投影与多 Token 预测之间的崩溃问题。此次改动还引入了并行草稿支持,以提升投机解码的可扩展性。

0 人收藏 0 人点赞
#speculative-decoding

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending · 2天前 缓存

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

0 人收藏 0 人点赞
#speculative-decoding

SpecBlock:具有动态树草拟的块迭代投机解码

arXiv cs.CL · 2天前 缓存

本文介绍了 SpecBlock,这是一种块迭代式投机解码方法,通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比,它在保持更低草拟成本的同时展示了更高的加速比。

0 人收藏 0 人点赞
#speculative-decoding

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

Hugging Face Daily Papers · 2天前 缓存

SlimSpec 为 drafter LM-head 引入了低秩参数化方法,以加速 LLMs 中的推测解码,在保持完整词表支持的同时实现了 4-5 倍加速。

0 人收藏 0 人点赞
#speculative-decoding

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA · 3天前

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

0 人收藏 0 人点赞
#speculative-decoding

@RedHat_AI: Qwen3-8B 现已拥有 DFlash 投机模型!在数学推理任务上首词接受率高达 82.2%,每步平均接受 3.74 个 token……

X AI KOLs Following · 3天前 缓存

Red Hat AI 发布了用于 Qwen3-8B 的 DFlash 投机模型,在数学推理任务上实现了 82.2% 的首词接受率。该模型使用 Speculators 库和 vLLM 进行训练,以优化推理速度。

0 人收藏 0 人点赞
#speculative-decoding

@AlexJonesax: 如果你在 Mac 上运行 LLM,值得了解的两个开源 MLX 推理服务器:MTPLX (@youssofal) 利用模型自身的…

X AI KOLs Timeline · 3天前

本文介绍了两个适用于 Mac 的开源 MLX 推理服务器:MTPLX 通过投机解码(无需草稿模型)优化 token 生成速度,而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。

1 人收藏 1 人点赞
#speculative-decoding

@simplifyinAI: 研究人员刚刚通过零精度损失将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它取代了缓慢的自回归…

X AI KOLs Timeline · 3天前

研究人员提出了 DFlash,这是一种用块扩散模型替代自回归草稿模型的方法,在零精度损失的情况下实现了 8.5 倍的 LLM 推理加速。

0 人收藏 0 人点赞
#speculative-decoding

@Youssofal_:MTPLX V0.3 已发布!- 我意识到 M1 和 M2 Mac 并不支持 BF16,之前只是在模拟该格式,导致每秒生成的 tokens 数(TPS)显著下降……

X AI KOLs Timeline · 3天前 缓存

MTPLX v0.3 已发布,这是一个专为 Apple Silicon 设计的原生运行时。它采用多 token 预测(MTP)技术将解码速度提高一倍,并通过 Leviathan-Chen 接受机制维持分布准确性。

0 人收藏 0 人点赞
#speculative-decoding

@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……

X AI KOLs Timeline · 3天前

研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。

1 人收藏 0 人点赞
#speculative-decoding

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

X AI KOLs Following · 3天前 缓存

DFlash 是一个用于投机解码的轻量级块扩散模型,现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。

0 人收藏 1 人点赞
#speculative-decoding

BeeLlama.cpp:支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5,速度比基线快 2-3 倍(峰值 135 tps!)

Reddit r/LocalLLaMA · 4天前

BeeLlama.cpp 是一个专注于性能的 llama.cpp 分支,引入了 DFlash 投机解码和 TurboQuant KV 缓存压缩技术,使得在消费级硬件上也能高速本地运行像 Qwen 3.6 27B 这样的大型模型。

1 人收藏 1 人点赞
#speculative-decoding

更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上

Reddit r/LocalLLaMA · 4天前

本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈