标签
在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。
有开发者实测,新的 27B Qwen 3.6 模型在 24GB 显存笔记本上跑得飞起,所有 PySpark/Python 数据转换基准全部通过,再也不用买云算力订阅了。
在 108 k token 的 JS 文件上,Qwen 3.6 35B 实现 283/285 行近乎完美的召回率,碾压 Gemma 4 27B(仅 6/16 通过),并修复了早期 Qwen 的长上下文短板。