speedup

标签

Cards List
#speedup

使用LiteRT引擎运行Gemma 4 E4B —— 文本生成比Q4 GGUF快约2.4倍,图像处理速度基本持平

Reddit r/LocalLLaMA · 6天前

开发者将Gemma 4 E4B在Google LiteRT引擎上的表现与Q4 GGUF量化版本进行对比,发现由于多令牌预测(MTP),文本生成速度提升约2.4倍,但图像描述仅提升1.1倍。文章提供了一个面向OpenAI兼容端点的Python封装,但存在确定输出、单会话引擎等限制。

0 人收藏 0 人点赞
#speedup

@atomic_chat_hq: MTP 将 Qwen 速度提升 2.5 倍,在 Atomic Chat 中稠密模型与 MoE 模型在双 RTX 5090 上 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-…

X AI KOLs Timeline · 2026-05-20 缓存

Atomic Chat 的 MTP 技术利用推测解码,在双 RTX 5090 上将 Qwen 稠密模型的速度提升 2.5 倍,MoE 模型提升 25%,同时保持零精度损失,仅增加约 1 GB 显存,通过一次前向传播草拟并验证多个 token。

0 人收藏 0 人点赞
#speedup

双GPU llama.cpp加速

Reddit r/LocalLLaMA · 2026-05-17

llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。

0 人收藏 0 人点赞
#speedup

@NousResearch: 今天我们发布Lighthouse Attention,一种基于选择的分层注意力机制,用于长上下文预训练,实现…

X AI KOLs Following · 2026-05-15

NousResearch发布Lighthouse Attention,一种基于选择的分层注意力机制,在98K上下文下实现1.4-1.7倍实际时间加速,在单个B200上的512K上下文下,其前向/后向传播比标准注意力快约17倍,并在530M参数的Llama-3模型上跨50B tokens进行了验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈