Ornith-1.0-35B GGUF 更新:原生 MTP 推测解码嫁接 + 完整服务/TTFT/长上下文数据(llama.cpp, tp=1)
摘要
Ornith-1.0-35B GGUF 模型更新引入了原生 MTP 推测解码嫁接,可在单 GPU 上实现更快推理,解码速度提升约 1.3-1.35 倍,同时保持几乎相同的 token 分布。提供了多个量化版本的吞吐量、TTFT 和长上下文性能的基准数据。
继我之前关于 Ornith-1.0-35B Q3_K_M 的帖子。我将原生 MTP 推测解码头部嫁接在 IQ4_XS 主体上(头部为 Q6),实现单 GPU 自推测解码,llama.cpp 单流解码速度从 172.6 tok/s 提升至 233.8 tok/s,加速比约 1.3-1.35。下一个 token 分布与仅目标模型字节相同(KLD 0.0,32/32)。BF16 KLD 0.073——略优于 Q4_K_M。问题:在长确定性生成中,与仅目标模型并非按位精确(6/8 精确,token 匹配率 93.4%)。其在 KLD 阶梯中的位置(top-64 下一个 token KL 相对于 BF16,数值越低越好):
| 量化 | 平均 KLD | Top-1 匹配率 | 大小 |
|------|----------|--------------|------|
| Q8_0 | 0.011 | 96.9% | 36.9 GB |
| Q6_K | 0.017 | 100.0% | 28.5 GB |
| Q5_K_M | 0.035 | 93.8% | 24.7 GB |
| IQ4_XS-MTP 嫁接(新) | 0.073 | 90.6% | ~19.6 GB |
| Q4_K_M | 0.086 | 90.6% | 21.2 GB |
| IQ4_XS | 0.143 | 84.4% | 18.9 GB |
| Q3_K_M | 0.362 | 84.4% | 16.8 GB |
保真度阶梯图
我添加到模型卡上的性能数据:所有六个量化版本的吞吐量 + p95 TTFT 随并发度变化(Q4_K_M 在 c1 时约 243 tok/s -> c16 时约 656 tok/s,c1 时 p95 TTFT 约 76 ms)。长上下文 TTFT,单流:预填充从 512 token 的 94 ms 缩放至 32k 的约 6.3 秒(IQ4_XS 主体及其嫁接在每个长度上预填充速度均略快于 Q4_K_M)。
备注:Q4/Q5/Q6/Q8 是上游产物,我镜像并重新验证;Q3_K_M、IQ4_XS 以及 MTP 嫁接为本地生成。REASONING=off 仍是固定的服务默认设置(上一篇帖子中的推理模式错误)。单工作站 GPU(RTX PRO 6000 Blackwell 96 GB),仅 tp=1。
🔗 https://huggingface.co/LordNeel/Ornith-1.0-35B-GGUF-llamacpp-tp1
https://preview.redd.it/4kljd5aci2ah1.png?width=1800&format=png&auto=webp&s=f71b72f3fd40f3c64004c1910eb97304c98dcbc6
https://preview.redd.it/i7nro4aci2ah1.png?width=1800&format=png&auto=webp&s=65fef9870e76c5920799c884b181dc1d423bc995
https://preview.redd.it/5sdod4aci2ah1.png?width=1800&format=png&auto=webp&s=72f775e164cfa056172d705e7ff6f33e720d1380
https://preview.redd.it/cl2dw4aci2ah1.png?width=1800&format=png&auto=webp&s=690a525335066ff297666f3f6b0502a65db9c9bf
https://preview.redd.it/270cq3aci2ah1.png?width=1680&format=png&auto=webp&s=ea5944912b2f876d1daf9f36ac42fbd5ca369e68
https://preview.redd.it/0tgp54aci2ah1.png?width=2200&format=png&auto=webp&s=e2487187d455833ba41516cf0f93560c3c68a20b
https://preview.redd.it/2nuao3aci2ah1.png?width=1192&format=png&auto=webp&s=76f8b368e1c3e2b990c0545d0ba6e3c0e04f49bd
https://preview.redd.it/o1u7n3aci2ah1.png?width=1192&format=png&auto=webp&s=14354bf5001b38159a56752c367a84da5bd47a63
相似文章
@malikwas1f: Ornith-1.0-35B:一个Qwen3.6-35B-A3B的编码微调版本,在真实编码上略优于基础模型(aider 15/30 vs 13)——完整262K…
宣布Ornith-1.0-35B,一个Qwen3.6-35B-A3B的编码微调版本,在aider基准测试上略优于基础模型。同时推广用于在RTX 3090上运行LLM的club-3090仓库。
Ornith-1.0-35B Q3_K_M:约17 GB显存,经KLD与BF16对比验证
Ornith-1.0-35B Q3_K_M是一个35B参数模型的3位量化版本,需要约17 GB显存,并通过KLD与BF16对比检查以确保保真度。
@sudoingX: 我之前在 llama.cpp 上用 Q4 量化运行了 Ornith 新型 35B MoE 模型,4 bit,体积小,速度快,达到了约 78 tok/s。然后我更换了引擎……
一款名为 Ornith 的 35B MoE 智能编码模型,在单台 DGX Spark 上以 FP8 精度近乎无损运行,支持 300 万 token 上下文,速度约 36 tok/s,预计通过投机解码可进一步提升性能。
@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。
基准测试:仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]
一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示,ONNX Runtime的推理速度比HF Transformers bfloat16快37%,而GGUF则优先考虑内存效率。