qwen

#qwen

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA ↗ · 3小时前

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞

#qwen

Qwen 并非免费可用

Reddit r/LocalLLaMA ↗ · 8小时前

本文讨论了阿里巴巴的大语言模型 Qwen 并非免费使用，说明了该模型在定价或访问方面的限制。

0 人收藏 0 人点赞

#qwen

@davis7：@0xSero 帮我把本地模型配置好了，我没想到它们现在竟然这么强大了。这算是前沿（frontier）级别了吗……

X AI KOLs Following ↗ · 12小时前

作者强调了在 RTX 5090 上本地运行开源 Qwen 3.6-27B 模型的卓越能力，指出其在编程任务上的强劲表现，并与商业模型进行了对比，尽管本地部署过程颇具挑战性。

0 人收藏 0 人点赞

#qwen

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

Reddit r/LocalLLaMA ↗ · 13小时前

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上，使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议，并探讨了更大模型的潜在应用场景。

0 人收藏 0 人点赞

#qwen

Qwen3.6 35B A3B 无审查异端版原生MTP完整保留发布 KLD 0.0015, 10/100拒绝率完整19个MTP保留支持Safetensors、GGUF、NVFP4、NVFP4 GGUF和GPTQ-Int4格式

Reddit r/LocalLLaMA ↗ · 14小时前

社区发布的Qwen3.6 35B A3B无审查变体版本，完整保留19个MTP张量，支持多种格式包括Safetensors、GGUF、NVFP4和GPTQ-Int4。

0 人收藏 0 人点赞

#qwen

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA ↗ · 17小时前

一位用户在12GB的RTX 3060上对Qwen 35B-A3B（一个35B参数的MoE模型）进行了基准测试，发现12GB显存是运行该模型并支持32k上下文时的实用甜点区，生成速度可达约47 token/秒。

0 人收藏 0 人点赞

#qwen

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA ↗ · 17小时前

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

1 人收藏 1 人点赞

#qwen

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following ↗ · 19小时前缓存

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈，在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型（0.659）相竞争的结果（0.601-0.688），表明开源权重方法已接近达到同等水平。

0 人收藏 0 人点赞

#qwen

向思维模型教授工具推理：工具集成推理的全流程方案

arXiv cs.CL ↗ · 昨天缓存

本文提出了一种全流程方案，用于向思维模型教授工具推理，该方法应用于 Qwen3 模型时，在 AIME 2025 等基准测试上实现了最先进的性能。

0 人收藏 0 人点赞

#qwen

Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit

Reddit r/LocalLLaMA ↗ · 昨天

用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本，称赞其速度快、智能化程度高且没有安全免责声明。

0 人收藏 0 人点赞

#qwen

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Reddit r/LocalLLaMA ↗ · 昨天

对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明，基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升（最高达 +53%）。

0 人收藏 0 人点赞

#qwen

使用 Prime-RL 后训练构建快速准确的智能体（22 分钟阅读）

TLDR AI ↗ · 昨天缓存

Ramp 介绍了一项案例研究，利用强化学习后训练构建了 Fast Ask，这是一种专门的电子表格检索智能体，与通用模型相比，它提高了准确性并降低了延迟。

0 人收藏 0 人点赞

#qwen

Openclaw 作为系统管理员

Reddit r/openclaw ↗ · 2天前

作者描述了在 Linux 服务器上将 Openclaw 用作系统管理员，利用本地 Qwen 3.6 27b 模型进行安全审计、更新以及部署自助服务终端模式任务，无需外部互联网连接。

0 人收藏 0 人点赞

#qwen

粒度轴：语言模型中社会角色的微观到宏观隐式方向

Hugging Face Daily Papers ↗ · 2天前缓存

这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实，这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致，并且可以通过激活 steering（activation steering）进行因果干预。

0 人收藏 0 人点赞

#qwen

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Hugging Face Models Trending ↗ · 3天前缓存

Jackrong 发布 Qwopus3.6-35B-A3B-v1，基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本，针对逻辑推理和智能体编程优化，拥有 350 亿总参数和 30 亿激活参数。

0 人收藏 0 人点赞

#qwen

何时思考，何时表达：学习大型语言模型推理中的披露策略

Hugging Face Daily Papers ↗ · 3天前缓存

本文提出了“并行交错推理（Side-by-Side Interleaved Reasoning）”方法，通过控制自回归模型中的信息揭示时机，以提高准确性和效率。实验表明，在使用 Qwen3 模型的基准测试中，通过将私密推理与部分信息披露相结合，模型性能得到了提升。

0 人收藏 0 人点赞

#qwen

DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Hugging Face Models Trending ↗ · 2026-04-29 缓存

基于 Qwen 3.6 27B 模型的社区微调去审查版本，提供高精度 GGUF 量化。

0 人收藏 0 人点赞

#qwen

froggeric/Qwen-Fixed-Chat-Templates

Hugging Face Models Trending ↗ · 2026-04-23 缓存

该仓库为 Qwen 3.5 和 3.6 提供了修复后的 Jinja 聊天模板，解决了官方模板在 LM Studio、llama.cpp 等引擎中的渲染错误、token 浪费和功能缺失问题。

0 人收藏 0 人点赞

#qwen

POV：带思考模式的 Qwen 3.5

Reddit r/LocalLLaMA ↗ · 2026-04-23

用户观察到 Qwen 3.5 在生成时陷入重复思考循环。

0 人收藏 0 人点赞

#qwen

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following ↗ · 2026-04-23 缓存

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

1 人收藏 1 人点赞

qwen

提交意见反馈