Ornith 35B 与 Qwen3.6 35B DFlash 推测模型配合效果良好

Reddit r/LocalLLaMA 2026/06/29 20:55 模型

speculative-decoding inference-speedup llama-server ornith-35b qwen3.6 dflash

摘要

在 llama-server 中，Ornith 35B 与 Qwen3.6 35B DFlash 推测模型搭配使用时，token 生成速度提升了 30-40%，在混合代码和文本上实现了 80% 的接受率，但提示处理性能有所下降。

我从以下配置中看到了 token 生成速度稳定提升 30-40%：./llama-server --no-mmap --port 8080 --host 0.0.0.0 -kvu -ts 75,70 \ --alias qwen -hf bartowski/deepreinforce-ai_Ornith-1.0-35B-GGUF:Q8_0 -sm layer -c 255000 -cram 0 \ -ctk f16 -ctv f16 -fa 1 --jinja -t 7 --metrics --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 \ --presence_penalty 0.0 --repeat-penalty 1.0 --ctx-checkpoints 4 --checkpoint-min-step 1024 \ --chat-template-kwargs '{"preserve_thinking": true}' \ -hfd williamliao/Qwen3.6-35B-A3B-DFlash-GGUF:Q8_0 --spec-draft-n-max 4 --spec-type draft-dflash 我不完全确定这是否是最佳的 dflash 搭配，但已经足够好了（在 50k 上下文中，混合了 JavaScript 代码和随机维基百科测试，我获得了稳定的 80% 接受率）。和常见的推测解码一样，虽然 token 生成速度提升了，但提示处理性能明显下降。所以这远非万能灵药。但可能对部分人有帮助。

查看原文

Ornith 35B 与 Qwen3.6 35B DFlash 推测模型配合效果良好

相似文章

@TeksEdge：经过一天的使用，测试 Orinth-1.0-35B 与 Qwen3.6-35B 的表现如何。凭经验来说，它的表现与……

z-lab/Qwen3.6-35B-A3B-DFlash

@LottoLabs: 这是Dflash为Qwen 3.5/6系列所做的出色工作

@sudoingX: 我之前在 llama.cpp 上用 Q4 量化运行了 Ornith 新型 35B MoE 模型，4 bit，体积小，速度快，达到了约 78 tok/s。然后我更换了引擎……

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

提交意见反馈