inference-speed

标签

Cards List
#inference-speed

LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%

Reddit r/LocalLLaMA · 昨天

llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

0 人收藏 0 人点赞
#inference-speed

@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…

X AI KOLs Following · 2026-04-23 缓存

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

1 人收藏 1 人点赞
#inference-speed

超越 FP16 + ONNX 的 Transformer 体积与推理优化(剪枝/图优化收效甚微)[P]

Reddit r/MachineLearning · 2026-04-23

作者分享在 162 MB Transformer 上把 FP16 + ONNX + 剪枝用到极致却收益递减的经历,求教下一步该选量化、蒸馏、低秩分解还是硬件级技巧。

0 人收藏 0 人点赞
#inference-speed

大家在 Qwen3.6 27b 上跑出来的速度是多少?

Reddit r/LocalLLaMA · 2026-04-22

用户基准测试 Qwen3.6-27B-Q8_0,在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文,询问该性能是否典型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈