inference-speed

#inference-speed

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

Reddit r/LocalLLaMA ↗ · 昨天

llama.cpp中新的多令牌预测（MTP）实现为Gemma 4模型带来了40%的速度提升，已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

0 人收藏 0 人点赞

#inference-speed

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following ↗ · 2026-04-23 缓存

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

1 人收藏 1 人点赞

#inference-speed

超越 FP16 + ONNX 的 Transformer 体积与推理优化（剪枝/图优化收效甚微）[P]

Reddit r/MachineLearning ↗ · 2026-04-23

作者分享在 162 MB Transformer 上把 FP16 + ONNX + 剪枝用到极致却收益递减的经历，求教下一步该选量化、蒸馏、低秩分解还是硬件级技巧。

0 人收藏 0 人点赞

#inference-speed

大家在 Qwen3.6 27b 上跑出来的速度是多少？

Reddit r/LocalLLaMA ↗ · 2026-04-22

用户基准测试 Qwen3.6-27B-Q8_0，在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文，询问该性能是否典型。

0 人收藏 0 人点赞

inference-speed

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

超越 FP16 + ONNX 的 Transformer 体积与推理优化（剪枝/图优化收效甚微）[P]

大家在 Qwen3.6 27b 上跑出来的速度是多少？

提交意见反馈