@alex_whedon:各位!过去48小时里,大家对SubQ和SSA突破的反应让我们备受震撼。真是太棒了…
摘要
SubQ的创建者宣布,SSA突破获得了压倒性的反响,并计划下周发布包含更多数据和第三方验证的模型卡。
嘿,各位!过去48小时里,大家对SubQ和SSA突破的反应让我们备受震撼。看到有这么多人响应我们通过创造更高效的算法来构建更好模型的使命,真是太棒了。我们正在努力确定发布的时间线,并很快会分享更多信息。下周,我们还会在模型卡中分享更多的数据和第三方验证。如果你们有任何问题,请在帖子中提出,我会尽力回复!最重要的是,感谢你们!来自这个社区的支持、反馈和讨论一直激励着我们。
相似文章
@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.
Qwen 3.6 Max Preview 已在 Qwen Chat 网站正式上线。目前该模型在中国大模型中斩获最高的 AA-Intelligence Index 评分(52 分)。(是否将开源?)
Qwen 3.6 Max Preview 已上线 Qwen Chat 网站,以 52 分的 AA-Intelligence Index 评分位居中国模型榜首,但其开源计划尚不明确。
@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就打败 35B MoE
全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF,仅用一半显存即可在消费级 GPU 上运行,性能超越 35B MoE 模型。
@bastani_behnam:我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分……
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。
Qwen-3.6-27B + llamacpp 投机解码效果惊艳
Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。