speed-up

标签

Cards List
#speed-up

@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了! llama.cpp 原生支持 MTP(多令牌预测): - 无需额外 dr…

X AI KOLs Timeline · 2026-05-26 缓存

llama.cpp 原生支持多令牌预测(MTP),无需额外 draft 模型,利用模型内置预测头,使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速,让 27B 模型在消费级显卡上流畅运行。

0 人收藏 0 人点赞
#speed-up

@davideciffa: 如果你拥有Nvidia RTX 4090,--ddtree-budget 36是最佳配置,可在解码过程中带来2.5倍速度提升…

X AI KOLs Timeline · 2026-05-24 缓存

一条推文推荐Nvidia RTX 4090使用--ddtree-budget 36,声称在Qwen3.6_27B解码时实现2.5倍加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈