标签
llama.cpp 为 Qwen3.6 系列添加了多令牌预测(MTP)支持,为在普通硬件上进行本地AI推理带来了巨大的性能提升。
开发者因 OpenAI API 报错,改用开源 Qwen3.6-27B 模型生成 Svelte 5 代码,一次成功:速度慢,但结果完美。
Qwen 团队为其新的 27B 模型更新了推荐的 temperature、top_p 与 presence_penalty 数值,以同时优化思考模式与指令模式的表现。
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。
社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。
一份详尽指南,教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型,并驱动 pi 编码 Agent,附带优化后的启动参数与采样配置。