qwen

标签

#qwen

@SlimTradeyBaby: 在下方列出你的GPU，我会告诉你运行什么模型和配置。开玩笑的。没必要。Qwen 3.6 27b @Unsloth…

X AI KOLs Timeline ↗ · 3天前缓存

一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。

0 人收藏 0 人点赞

#qwen

@LottoLabs: 这是Dflash为Qwen 3.5/6系列所做的出色工作

X AI KOLs Timeline ↗ · 3天前缓存

Charles Frye宣布与Z Lab共同发布六款新的DFlash推测器，用于阿里巴巴Qwen 3.x系列模型，在B200上为Qwen 3.5 122B-A10B实现了每秒超过1000个输出token。

0 人收藏 0 人点赞

#qwen

@charles_irl：推测就是一切。在这篇博客中，我们宣布与Z Lab共同发布六款最新的DFla…

X AI KOLs Following ↗ · 4天前缓存

Modal和Z Lab发布了六款新的DFlash推测解码草稿模型，用于Qwen 3.x，在B200上实现了每秒超过1000个token，并认为推测解码是最有影响力的推理优化。

0 人收藏 0 人点赞

#qwen

1800美元（GPU成本，使用P2P运行Qwen/Qwen3.6-27b-FP8，262K上下文，BF16 KV缓存，55 tok/s）

Reddit r/LocalLLaMA ↗ · 4天前

一位用户分享了使用4块RTX 5060 Ti 16GB显卡（支持P2P）运行Qwen3.6-27B-FP8的配置，在262K上下文下实现55 tok/s的速度，强调单用户推理成本仅约1800美元。

0 人收藏 0 人点赞

#qwen

empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

Hugging Face Models Trending ↗ · 4天前缓存

Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF，这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹（包含思维链）微调而成的 9B 参数推理模型，相比 Qwen3.5-9B 取得了显著提升，并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。

0 人收藏 0 人点赞

#qwen

哪个更令人印象深刻：GLM 5.1 -> 5.2 还是 Qwen 3.5 -> 3.6？

Reddit r/LocalLLaMA ↗ · 4天前

比较了从 GLM 5.1 到 5.2 和从 Qwen 3.5 到 3.6 的改进，讨论哪个更新更令人印象深刻。

0 人收藏 0 人点赞

#qwen

@ben_burtenshaw: https://x.com/ben_burtenshaw/status/2067615361428545566

X AI KOLs Timeline ↗ · 5天前缓存

一份关于监督微调（SFT）训练AI代理的详细教程，完全基于纯PyTorch从零构建，使用Qwen3-0.6B模型，解释了下一个词元预测和标签掩码的机制。

0 人收藏 0 人点赞

#qwen

在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大

Reddit r/LocalLLaMA ↗ · 5天前

在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率，使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。

0 人收藏 0 人点赞

#qwen

基于归因引导和覆盖最大化的结构化MoE压缩剪枝

arXiv cs.LG ↗ · 5天前缓存

提出了一种针对MoE模型的结构化剪枝框架，通过基于归因的近似方法最大化通道分数覆盖，在结合4比特量化时实现50%或25%的剪枝，并在Qwen3-30B-A3B上将内存占用降低5.27倍。

0 人收藏 0 人点赞

#qwen

本地Qwen并非更差的Opus，而是不同的工具

Lobsters Hottest ↗ · 5天前缓存

Alex Ellis比较了本地Qwen模型与云端的Claude Opus，分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值，同时也承认了其局限性，例如量化时出现的幻觉和无限循环。

0 人收藏 0 人点赞

#qwen

@yibie: 本地模型做主力编码工具：2026 年中的实战报告 Hacker News 上有一个帖子，标题很直接："有人用本地模型做主力编码工具吗？" 197 条评论，信息密度极高。十几个真实用户在讨论他们每天用的配置、踩过的坑、以及为什么明明知道本地…

X AI KOLs Timeline ↗ · 5天前缓存

本文总结了Hacker News讨论中关于使用本地模型（主要是Qwen 3.6 35B-A3B）作为主力编码工具的实战经验，包括配置、效果（约为前沿模型的50-75%）、关键技巧（如preserve_thinking）和不同用户的立场。

0 人收藏 0 人点赞

#qwen

@LangChain: 微调开源模型可以超越或匹配前沿模型。基础 @Alibaba_Qwen 开箱即有良好的提示能力：强…

X AI KOLs Following ↗ · 6天前缓存

使用LoRA微调像阿里巴巴Qwen这样的开源模型，可以在错误分类任务上匹配或超越前沿模型性能。

0 人收藏 0 人点赞

#qwen

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

X AI KOLs Timeline ↗ · 6天前缓存

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型，实现了超过 90 tokens/s 的推理速度，预填充速度超过 1000 t/s，表明在消费级硬件上本地部署大型语言模型是可行的。

0 人收藏 0 人点赞

#qwen

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline ↗ · 6天前缓存

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试，实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

0 人收藏 0 人点赞

#qwen

@cjzafir: 一个3B参数的小语言模型：VibeThinker（基于Qwen 2.5微调）性能媲美Claude Opus 4.5。性能与以下模型相当： > De…

X AI KOLs Timeline ↗ · 6天前缓存

VibeThinker是一个3B参数的模型，基于Qwen 2.5微调，通过创新的后训练方法（包括多路径思维和在数学、编程、科学上的分阶段训练），实现了与Claude Opus 4.5以及更大的模型（如DeepSeek v3）相当的性能。

0 人收藏 0 人点赞

#qwen

@witcheer：这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优（！！！）。 - 质量（MMLU/ARC/HellaS…）

X AI KOLs Timeline ↗ · 6天前缓存

一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力，同时保持了质量，这与导致退化的合成蒸馏不同。

0 人收藏 0 人点赞

#qwen

SIQ-1 Qwen3.6：用于自动研究和自主代理

Reddit r/LocalLLaMA ↗ · 6天前

SIQ-1 Qwen3.6 是一款专为自动化研究和自主代理任务设计的新型AI模型，通过增强的代理能力扩展了Qwen系列。

0 人收藏 0 人点赞

#qwen

本地模型从几乎无用迅速变得真正有用。是什么发生了变化？

Reddit r/LocalLLaMA ↗ · 6天前

文章指出，过去一年中，本地AI模型变得显著更有用，从玩具变成了编程和工作流程的实用工具，尽管在复杂任务上仍落后于闭源模型。

0 人收藏 0 人点赞

#qwen

Rio 3.5 397B 疑似只是半失败的资金挪用骗局

Reddit r/LocalLLaMA ↗ · 6天前

一项调查揭示，耗资10万美元的 Rio 3.5 397B AI 模型很可能只是 Nex N2 Pro 的简单合并，并未经过任何训练，从而引发了资金挪用的指控。

0 人收藏 0 人点赞

#qwen

@MiaAI_lab: MTP 已上线，试试吧 https://huggingface.co/Mia-AiLab/Qwable-3.6-27b-MTP…

X AI KOLs Timeline ↗ · 6天前缓存

Mia-AiLab 发布了 Qwable-3.6-27b-MTP，这是基于 Qwen3.6-27B 的完整微调检查点，使用了经过清洗的 Fable 5 推理与指令数据集，专注于代码、结构化推理以及带有 MTP 层的本地推理。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈