标签
一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。
Charles Frye宣布与Z Lab共同发布六款新的DFlash推测器,用于阿里巴巴Qwen 3.x系列模型,在B200上为Qwen 3.5 122B-A10B实现了每秒超过1000个输出token。
Modal和Z Lab发布了六款新的DFlash推测解码草稿模型,用于Qwen 3.x,在B200上实现了每秒超过1000个token,并认为推测解码是最有影响力的推理优化。
一位用户分享了使用4块RTX 5060 Ti 16GB显卡(支持P2P)运行Qwen3.6-27B-FP8的配置,在262K上下文下实现55 tok/s的速度,强调单用户推理成本仅约1800美元。
Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF,这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹(包含思维链)微调而成的 9B 参数推理模型,相比 Qwen3.5-9B 取得了显著提升,并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。
比较了从 GLM 5.1 到 5.2 和从 Qwen 3.5 到 3.6 的改进,讨论哪个更新更令人印象深刻。
一份关于监督微调(SFT)训练AI代理的详细教程,完全基于纯PyTorch从零构建,使用Qwen3-0.6B模型,解释了下一个词元预测和标签掩码的机制。
在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率,使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。
提出了一种针对MoE模型的结构化剪枝框架,通过基于归因的近似方法最大化通道分数覆盖,在结合4比特量化时实现50%或25%的剪枝,并在Qwen3-30B-A3B上将内存占用降低5.27倍。
Alex Ellis比较了本地Qwen模型与云端的Claude Opus,分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值,同时也承认了其局限性,例如量化时出现的幻觉和无限循环。
本文总结了Hacker News讨论中关于使用本地模型(主要是Qwen 3.6 35B-A3B)作为主力编码工具的实战经验,包括配置、效果(约为前沿模型的50-75%)、关键技巧(如preserve_thinking)和不同用户的立场。
使用LoRA微调像阿里巴巴Qwen这样的开源模型,可以在错误分类任务上匹配或超越前沿模型性能。
用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。
VibeThinker是一个3B参数的模型,基于Qwen 2.5微调,通过创新的后训练方法(包括多路径思维和在数学、编程、科学上的分阶段训练),实现了与Claude Opus 4.5以及更大的模型(如DeepSeek v3)相当的性能。
一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力,同时保持了质量,这与导致退化的合成蒸馏不同。
SIQ-1 Qwen3.6 是一款专为自动化研究和自主代理任务设计的新型AI模型,通过增强的代理能力扩展了Qwen系列。
文章指出,过去一年中,本地AI模型变得显著更有用,从玩具变成了编程和工作流程的实用工具,尽管在复杂任务上仍落后于闭源模型。
一项调查揭示,耗资10万美元的 Rio 3.5 397B AI 模型很可能只是 Nex N2 Pro 的简单合并,并未经过任何训练,从而引发了资金挪用的指控。
Mia-AiLab 发布了 Qwable-3.6-27b-MTP,这是基于 Qwen3.6-27B 的完整微调检查点,使用了经过清洗的 Fable 5 推理与指令数据集,专注于代码、结构化推理以及带有 MTP 层的本地推理。