ExLlamaV3 重大更新!

Reddit r/LocalLLaMA 工具

摘要

ExLlamaV3 发布了一系列重大更新,包括对 Gemma 4 的支持、缓存效率的提升,以及新的 DFlash 技术,可显著提高各类模型的推理速度。

Turboderp 最近一直在 [火力全开](https://github.com/turboderp-org/exllamav3/commits/dev),在这场将新模型塞入更小、更快硬件的无尽战斗中。上个月我们率先发布了 [Gemma 4 支持](https://github.com/turboderp-org/exllamav3/releases/tag/v0.0.29),随后又带来了 [缓存效率改进](https://github.com/turboderp-org/exllamav3/releases/tag/v0.0.30)。两周前推出的 [DFlash 支持](https://github.com/turboderp-org/exllamav3/releases/tag/v0.0.31) 带来了令人瞩目的测试结果: | 类别 | 基准 | N-gram/后缀 | DFlash | | :- | :- | :- | :- | | Agentic, code | 55.98 t/s | 89.58 t/s (1.60x) | 140.61 t/s (2.51x) | | Agentic, curl | 54.03 t/s | 74.62 t/s (1.38x) | 125.94 t/s (2.33x) | | Coding | 59.21 t/s | 75.34 t/s (1.27x) | 177.67 t/s (3.00x) | | Creative | 59.10 t/s | 67.26 t/s (1.13x) | 89.19 t/s (1.50x) | | Creative (reasoning) | 59.03 t/s | 64.25 t/s (1.09x) | 93.54 t/s (1.58x) | | Translation | 58.11 t/s | 55.39 t/s (0.95x) | 75.73 t/s (1.30x) | | Translation (reasoning) | 58.08 t/s | 80.21 t/s (1.38x) | 119.43 t/s (2.06x) | 上周进行了 [更多模型优化](https://github.com/turboderp-org/exllamav3/releases/tag/v0.0.32),提升如下: | 模型 | 3090¹ | 4090¹ | 5090¹ | 6000 Pro¹ | 5090² | 6000 Pro² | | :- | :- | :- | :- | :- | :- | :- | | Qwen3.5-35B-A3B 4.00bpw | 5.3% | 5.8% | 8.6% | 10.3% | 21.0% | 23.5% | | Qwen3.5-27B 4.00bpw | 0.0% | 1.9% | 8.1% | 11.7% | 13.1% | 15.0% | | Trinity-Nano 4.15bpw | 29.5% | 48.6% | 52.3% | 52.9% | 70.5% | 72.4% | | Gemma4-26B-A4B 4.10bpw | 3.1% | 2.9% | 7.8% | 9.6% | 16.4% | 19.2% | | Gemma4-31B 4.00bpw | 4.0% | 4.9% | 10.0% | 8.0% | 16.0% | 12.0% | 过去两天又推出了 [DFlash 模型量化](https://github.com/turboderp-org/exllamav3/releases/tag/v0.0.33),并修复了更多 Bug 及提升了效率,dev 分支上工作仍在继续!欢迎来 [exllama Discord](https://discord.gg/AD2mVhZzf) 打个招呼。
查看原文

相似文章

推出 Gemma 3

Google DeepMind Blog

Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。