@0xSero: Qwen3.6-28B-REAP - BF16 (56GB)/4bit (14GB) 构建了一个地铁射击游戏 (vllm-studio),每会话150 tok/s。相对…
摘要
Qwen3.6-28B-REAP,一个全新的28B参数模型变体,已发布BF16(56GB)和4位(14GB)版本,能够使用vllm-studio以每会话150 tok/s的速度构建一个地铁射击游戏。
查看缓存全文
缓存时间: 2026/05/19 08:41
Qwen3.6-28B-REAP - BF16(56GB)/ 4bit(14GB)使用vllm-studio构建了一个地铁射击游戏,每会话150 token/s。
对于这么小的模型来说,这个表现还算不错。https://t.co/KCLYMVIzIG
相似文章
Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s
使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。
@sudoingX:更新:Qwen 3.6 27b dense q4 在单张 3090 上一次生成了 Octopus Invaders 游戏。Hermes Agent 驱动了整个事…
用户基准测试表明,Qwen 3.6 27B dense 模型(Q4 量化)能够在单张 RTX 3090 上通过单次提示自主生成一个完全可玩的多文件游戏,性能显著优于其前代版本,且无需任何人工干预。测试结果突显了在消费级硬件上本地代码生成和智能体能力方面的重大改进。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.
@Daniel_Farinax: Qwen3.6-27B 在 MacBook Pro M5 128GB 上运行。游戏的第三个版本,这次是一个低多边形 GTA,使用自定义工具通宵构建完成。
Daniel Farinax 演示了在 MacBook Pro M5 128GB 上运行 Qwen3.6-27B,使用自定义的 Rust 命令行工具(MPTLX)通宵构建了一个低多边形 GTA 游戏,声称其速度极快,堪比本地运行的 Claude 4.6。