@0xSero: Qwen3.6-28B-REAP - BF16 (56GB)/4bit (14GB) 构建了一个地铁射击游戏 (vllm-studio),每会话150 tok/s。相对…

X AI KOLs Timeline 模型

摘要

Qwen3.6-28B-REAP,一个全新的28B参数模型变体,已发布BF16(56GB)和4位(14GB)版本,能够使用vllm-studio以每会话150 tok/s的速度构建一个地铁射击游戏。

Qwen3.6-28B-REAP - BF16 (56GB)/4bit (14GB) 构建了一个地铁射击游戏 (vllm-studio),每会话150 tok/s。 对于这么小的模型来说,相对不错。 https://t.co/KCLYMVIzIG
查看原文
查看缓存全文

缓存时间: 2026/05/19 08:41

Qwen3.6-28B-REAP - BF16(56GB)/ 4bit(14GB)使用vllm-studio构建了一个地铁射击游戏,每会话150 token/s。

对于这么小的模型来说,这个表现还算不错。https://t.co/KCLYMVIzIG

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。