qwen

标签

Cards List
#qwen

NEX-N2-mini:“没有帕累托前沿。我就是帕累托。”这个Qwen3.5-MoE微调版本在我的测试中显然修复了3.5和3.6的过度思考问题。

Reddit r/LocalLLaMA · 4天前

据报道,名为NEX-N2-mini的Qwen3.5-MoE微调版本修复了Qwen 3.5和3.6模型中出现的过度思考问题。

0 人收藏 0 人点赞
#qwen

Qwen3.6-35B-A3B APEX 在单张 RTX 3090 上——充分发挥其潜力

Reddit r/LocalLLaMA · 4天前

在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南:比较两个 llama.cpp 分支及量化方法,以达到最佳速度与质量。

0 人收藏 0 人点赞
#qwen

@karminski3: 想买Mac运行大模型? 这是劝退贴 其实估算方法很简单, 现在买 MacStudio 哪怕运行 Qwen3.6-27B 4bit 量化版本, 然后开 DFlash 使用Qwen的内置投机解码, 也就飙到 65token/s. 而现在普遍大…

X AI KOLs Timeline · 4天前 缓存

作者通过计算Mac Studio运行大模型的token成本和回本周期,得出结论:普通用户购买Mac自用大模型不划算,建议使用API或租卡更经济。

0 人收藏 0 人点赞
#qwen

@guohao_li:是的,确实是时候认真考虑购买更多GPU并开始构建我们自己的本地AI堆栈了。我很好奇…

X AI KOLs Following · 5天前 缓存

一位研究人员表示,是时候购买更多GPU并构建本地AI堆栈了,并提到Qwen 3.5 27B和GLM 5.2等模型消除了永久底层阶级的威胁。

0 人收藏 0 人点赞
#qwen

我们使用本地模型免费对OpenClaw仓库进行问题分类!*

Hugging Face Blog · 5天前 缓存

这篇博文介绍了在代理框架中使用Gemma、Qwen等本地开源权重模型,自动对OpenClaw仓库中的问题和拉取请求进行分类,从而实现实时通知,无需依赖昂贵的封闭API模型。

0 人收藏 0 人点赞
#qwen

对本地LLM如Qwen 3:0.6B进行微调以对问题分类,效果良好

Hacker News Top · 5天前 缓存

一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调,用于对家庭问题进行分类,仅用850个训练样本便取得了良好效果。

0 人收藏 0 人点赞
#qwen

@losterror501:使用2dgx sparks,单会话25 tok/s,8会话峰值152 tok/s。实在疯狂……

X AI KOLs Timeline · 5天前 缓存

宣布Qwable-v1,这是一个从Claude Fable-5蒸馏而来的开放权重模型,同时展示了在2dgx sparks硬件上的性能基准测试:单会话25 tok/s,8会话152 tok/s。

0 人收藏 0 人点赞
#qwen

A100上Qwen3.6-27B-FP8运行缓慢

Reddit r/LocalLLaMA · 5天前

Qwen3.6-27B-FP8模型在A100 GPU上运行时性能较慢

0 人收藏 0 人点赞
#qwen

Qwen 27B 用于规划,Qwen 35B-A3B 用于执行?

Reddit r/LocalLLaMA · 5天前

讨论使用 Qwen 27B 进行规划任务,使用 Qwen 35B-A3B 进行执行任务,提出了一种专门的模型方法。

0 人收藏 0 人点赞
#qwen

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA · 5天前

本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞
#qwen

Qwen 3.6 27b Abliterated (apostate)

Reddit r/LocalLLaMA · 5天前

用户发布了Apostate,这是Qwen 3.6 27B的去安全对齐版本,将安全对齐拒绝率从92%降低到7.6%,同时能力损失极小(KL 0.120)。

0 人收藏 0 人点赞
#qwen

双Radeon R9700——在llama.cpp上运行Qwen 3.6 27B Q8 MTP

Reddit r/LocalLLaMA · 5天前

关于在使用ROCm的llama.cpp上,于双AMD Radeon R9700配置下运行Qwen 3.6 27B Q8模型的技术报告,包括性能基准测试和配置详情。

0 人收藏 0 人点赞
#qwen

Qwen永远不会开源Qwen 3.7了,对吧?

Reddit r/LocalLLaMA · 5天前

在解雇Junyang Lin之后,Qwen锁定了其大型模型,不再发布开源模型,而其他中国AI实验室继续开源最新模型。传闻小模型团队已解散,Qwen 3.6/3.7可能是最后一代开源模型。

0 人收藏 0 人点赞
#qwen

Qwen 代码助手现已上架 VS Code 市场 - 个人思考

Reddit r/LocalLLaMA · 6天前

Qwen 代码助手现已可在 VS Code 市场中获取,为开发者提供 AI 驱动的编码辅助工具。

0 人收藏 0 人点赞
#qwen

48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA · 6天前

一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。

0 人收藏 0 人点赞
#qwen

@SlimTradeyBaby: 在下方列出你的GPU,我会告诉你运行什么模型和配置。开玩笑的。没必要。Qwen 3.6 27b @Unsloth…

X AI KOLs Timeline · 2026-06-20 缓存

一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。

0 人收藏 0 人点赞
#qwen

@LottoLabs: 这是Dflash为Qwen 3.5/6系列所做的出色工作

X AI KOLs Timeline · 2026-06-20 缓存

Charles Frye宣布与Z Lab共同发布六款新的DFlash推测器,用于阿里巴巴Qwen 3.x系列模型,在B200上为Qwen 3.5 122B-A10B实现了每秒超过1000个输出token。

0 人收藏 0 人点赞
#qwen

@charles_irl:推测就是一切。在这篇博客中,我们宣布与Z Lab共同发布六款最新的DFla…

X AI KOLs Following · 2026-06-20 缓存

Modal和Z Lab发布了六款新的DFlash推测解码草稿模型,用于Qwen 3.x,在B200上实现了每秒超过1000个token,并认为推测解码是最有影响力的推理优化。

0 人收藏 0 人点赞
#qwen

1800美元(GPU成本,使用P2P运行Qwen/Qwen3.6-27b-FP8,262K上下文,BF16 KV缓存,55 tok/s)

Reddit r/LocalLLaMA · 2026-06-19

一位用户分享了使用4块RTX 5060 Ti 16GB显卡(支持P2P)运行Qwen3.6-27B-FP8的配置,在262K上下文下实现55 tok/s的速度,强调单用户推理成本仅约1800美元。

0 人收藏 0 人点赞
#qwen

empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

Hugging Face Models Trending · 2026-06-19 缓存

Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF,这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹(包含思维链)微调而成的 9B 参数推理模型,相比 Qwen3.5-9B 取得了显著提升,并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈