Ornith 35B 与 Qwen3.6 35B DFlash 推测模型配合效果良好
摘要
在 llama-server 中,Ornith 35B 与 Qwen3.6 35B DFlash 推测模型搭配使用时,token 生成速度提升了 30-40%,在混合代码和文本上实现了 80% 的接受率,但提示处理性能有所下降。
我从以下配置中看到了 token 生成速度稳定提升 30-40%:./llama-server --no-mmap --port 8080 --host 0.0.0.0 -kvu -ts 75,70 \ --alias qwen -hf bartowski/deepreinforce-ai_Ornith-1.0-35B-GGUF:Q8_0 -sm layer -c 255000 -cram 0 \ -ctk f16 -ctv f16 -fa 1 --jinja -t 7 --metrics --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 \ --presence_penalty 0.0 --repeat-penalty 1.0 --ctx-checkpoints 4 --checkpoint-min-step 1024 \ --chat-template-kwargs '{"preserve_thinking": true}' \ -hfd williamliao/Qwen3.6-35B-A3B-DFlash-GGUF:Q8_0 --spec-draft-n-max 4 --spec-type draft-dflash 我不完全确定这是否是最佳的 dflash 搭配,但已经足够好了(在 50k 上下文中,混合了 JavaScript 代码和随机维基百科测试,我获得了稳定的 80% 接受率)。和常见的推测解码一样,虽然 token 生成速度提升了,但提示处理性能明显下降。所以这远非万能灵药。但可能对部分人有帮助。
相似文章
@TeksEdge:经过一天的使用,测试 Orinth-1.0-35B 与 Qwen3.6-35B 的表现如何。凭经验来说,它的表现与……
一位用户报告称,Ornith-1.0-35B 在性能上与 Qwen3.6-35B 相当,但在规划和长任务执行方面更胜一筹,同时开发者宣布开源专门用于代理编码的 Ornith-1.0 系列 LLM。
z-lab/Qwen3.6-35B-A3B-DFlash
z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。
@LottoLabs: 这是Dflash为Qwen 3.5/6系列所做的出色工作
Charles Frye宣布与Z Lab共同发布六款新的DFlash推测器,用于阿里巴巴Qwen 3.x系列模型,在B200上为Qwen 3.5 122B-A10B实现了每秒超过1000个输出token。
@sudoingX: 我之前在 llama.cpp 上用 Q4 量化运行了 Ornith 新型 35B MoE 模型,4 bit,体积小,速度快,达到了约 78 tok/s。然后我更换了引擎……
一款名为 Ornith 的 35B MoE 智能编码模型,在单台 DGX Spark 上以 FP8 精度近乎无损运行,支持 300 万 token 上下文,速度约 36 tok/s,预计通过投机解码可进一步提升性能。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。