Ornith 35B 与 Qwen3.6 35B DFlash 推测模型配合效果良好

Reddit r/LocalLLaMA 模型

摘要

在 llama-server 中,Ornith 35B 与 Qwen3.6 35B DFlash 推测模型搭配使用时,token 生成速度提升了 30-40%,在混合代码和文本上实现了 80% 的接受率,但提示处理性能有所下降。

我从以下配置中看到了 token 生成速度稳定提升 30-40%:./llama-server --no-mmap --port 8080 --host 0.0.0.0 -kvu -ts 75,70 \ --alias qwen -hf bartowski/deepreinforce-ai_Ornith-1.0-35B-GGUF:Q8_0 -sm layer -c 255000 -cram 0 \ -ctk f16 -ctv f16 -fa 1 --jinja -t 7 --metrics --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 \ --presence_penalty 0.0 --repeat-penalty 1.0 --ctx-checkpoints 4 --checkpoint-min-step 1024 \ --chat-template-kwargs '{"preserve_thinking": true}' \ -hfd williamliao/Qwen3.6-35B-A3B-DFlash-GGUF:Q8_0 --spec-draft-n-max 4 --spec-type draft-dflash 我不完全确定这是否是最佳的 dflash 搭配,但已经足够好了(在 50k 上下文中,混合了 JavaScript 代码和随机维基百科测试,我获得了稳定的 80% 接受率)。和常见的推测解码一样,虽然 token 生成速度提升了,但提示处理性能明显下降。所以这远非万能灵药。但可能对部分人有帮助。
查看原文

相似文章

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。