标签
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
一位用户询问为什么 Gemma 4 26b 相比 Qwen 模型关注度较低,并分享了他们在 3090 上使用这些模型构建个人助手项目的经验。
一篇分析文章,探讨为何 Gemma 4 尽管具备 QAT 与视觉支持等优势,却相比 Mistral 缺乏社区微调,以及社区惯性是否会最终发生转变。
使用TurboQuant,用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型,展现了在陈旧硬件上令人印象深刻的性能。
据报道,名为NEX-N2-mini的Qwen3.5-MoE微调版本修复了Qwen 3.5和3.6模型中出现的过度思考问题。
在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南:比较两个 llama.cpp 分支及量化方法,以达到最佳速度与质量。
作者通过计算Mac Studio运行大模型的token成本和回本周期,得出结论:普通用户购买Mac自用大模型不划算,建议使用API或租卡更经济。
一位研究人员表示,是时候购买更多GPU并构建本地AI堆栈了,并提到Qwen 3.5 27B和GLM 5.2等模型消除了永久底层阶级的威胁。
这篇博文介绍了在代理框架中使用Gemma、Qwen等本地开源权重模型,自动对OpenClaw仓库中的问题和拉取请求进行分类,从而实现实时通知,无需依赖昂贵的封闭API模型。
一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调,用于对家庭问题进行分类,仅用850个训练样本便取得了良好效果。
宣布Qwable-v1,这是一个从Claude Fable-5蒸馏而来的开放权重模型,同时展示了在2dgx sparks硬件上的性能基准测试:单会话25 tok/s,8会话152 tok/s。
讨论使用 Qwen 27B 进行规划任务,使用 Qwen 35B-A3B 进行执行任务,提出了一种专门的模型方法。
本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。
用户发布了Apostate,这是Qwen 3.6 27B的去安全对齐版本,将安全对齐拒绝率从92%降低到7.6%,同时能力损失极小(KL 0.120)。
关于在使用ROCm的llama.cpp上,于双AMD Radeon R9700配置下运行Qwen 3.6 27B Q8模型的技术报告,包括性能基准测试和配置详情。
在解雇Junyang Lin之后,Qwen锁定了其大型模型,不再发布开源模型,而其他中国AI实验室继续开源最新模型。传闻小模型团队已解散,Qwen 3.6/3.7可能是最后一代开源模型。
一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。
一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。