@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…
摘要
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.
查看缓存全文
缓存时间: 2026/04/23 12:05
这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。 模型权重在傍晚发布,动态 GGUF 文件在午夜前上线,而融合内核(Fused Kernel)+ 推测解码(Speculative
相似文章
@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。
Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。
试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode,真不敢相信居然能用
用户报告称,在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf,200K 上下文速度约 50 tok/s,编码表现出乎意料地可用,标志着本地模型质量大幅跃升。
双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s,性价比惊人
有用户报告称,在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token,强调性价比出色,并想知道进一步优化是否能达到150 tok/s。