qwen

标签

Cards List
#qwen

@SlimTradeyBaby: 在下方列出你的GPU,我会告诉你运行什么模型和配置。开玩笑的。没必要。Qwen 3.6 27b @Unsloth…

X AI KOLs Timeline · 3天前 缓存

一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。

0 人收藏 0 人点赞
#qwen

@LottoLabs: 这是Dflash为Qwen 3.5/6系列所做的出色工作

X AI KOLs Timeline · 3天前 缓存

Charles Frye宣布与Z Lab共同发布六款新的DFlash推测器,用于阿里巴巴Qwen 3.x系列模型,在B200上为Qwen 3.5 122B-A10B实现了每秒超过1000个输出token。

0 人收藏 0 人点赞
#qwen

@charles_irl:推测就是一切。在这篇博客中,我们宣布与Z Lab共同发布六款最新的DFla…

X AI KOLs Following · 4天前 缓存

Modal和Z Lab发布了六款新的DFlash推测解码草稿模型,用于Qwen 3.x,在B200上实现了每秒超过1000个token,并认为推测解码是最有影响力的推理优化。

0 人收藏 0 人点赞
#qwen

1800美元(GPU成本,使用P2P运行Qwen/Qwen3.6-27b-FP8,262K上下文,BF16 KV缓存,55 tok/s)

Reddit r/LocalLLaMA · 4天前

一位用户分享了使用4块RTX 5060 Ti 16GB显卡(支持P2P)运行Qwen3.6-27B-FP8的配置,在262K上下文下实现55 tok/s的速度,强调单用户推理成本仅约1800美元。

0 人收藏 0 人点赞
#qwen

empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

Hugging Face Models Trending · 4天前 缓存

Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF,这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹(包含思维链)微调而成的 9B 参数推理模型,相比 Qwen3.5-9B 取得了显著提升,并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。

0 人收藏 0 人点赞
#qwen

哪个更令人印象深刻:GLM 5.1 -> 5.2 还是 Qwen 3.5 -> 3.6?

Reddit r/LocalLLaMA · 4天前

比较了从 GLM 5.1 到 5.2 和从 Qwen 3.5 到 3.6 的改进,讨论哪个更新更令人印象深刻。

0 人收藏 0 人点赞
#qwen

@ben_burtenshaw: https://x.com/ben_burtenshaw/status/2067615361428545566

X AI KOLs Timeline · 5天前 缓存

一份关于监督微调(SFT)训练AI代理的详细教程,完全基于纯PyTorch从零构建,使用Qwen3-0.6B模型,解释了下一个词元预测和标签掩码的机制。

0 人收藏 0 人点赞
#qwen

在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大

Reddit r/LocalLLaMA · 5天前

在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率,使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。

0 人收藏 0 人点赞
#qwen

基于归因引导和覆盖最大化的结构化MoE压缩剪枝

arXiv cs.LG · 5天前 缓存

提出了一种针对MoE模型的结构化剪枝框架,通过基于归因的近似方法最大化通道分数覆盖,在结合4比特量化时实现50%或25%的剪枝,并在Qwen3-30B-A3B上将内存占用降低5.27倍。

0 人收藏 0 人点赞
#qwen

本地Qwen并非更差的Opus,而是不同的工具

Lobsters Hottest · 5天前 缓存

Alex Ellis比较了本地Qwen模型与云端的Claude Opus,分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值,同时也承认了其局限性,例如量化时出现的幻觉和无限循环。

0 人收藏 0 人点赞
#qwen

@yibie: 本地模型做主力编码工具:2026 年中的实战报告 Hacker News 上有一个帖子,标题很直接:"有人用本地模型做主力编码工具吗?" 197 条评论,信息密度极高。十几个真实用户在讨论他们每天用的配置、踩过的坑、以及为什么明明知道本地…

X AI KOLs Timeline · 5天前 缓存

本文总结了Hacker News讨论中关于使用本地模型(主要是Qwen 3.6 35B-A3B)作为主力编码工具的实战经验,包括配置、效果(约为前沿模型的50-75%)、关键技巧(如preserve_thinking)和不同用户的立场。

0 人收藏 0 人点赞
#qwen

@LangChain: 微调开源模型可以超越或匹配前沿模型。基础 @Alibaba_Qwen 开箱即有良好的提示能力:强…

X AI KOLs Following · 6天前 缓存

使用LoRA微调像阿里巴巴Qwen这样的开源模型,可以在错误分类任务上匹配或超越前沿模型性能。

0 人收藏 0 人点赞
#qwen

@ItsmeAjayKV: 3090 更新:现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s,尚未启用 MTP,预填充速度…

X AI KOLs Timeline · 6天前 缓存

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。

0 人收藏 0 人点赞
#qwen

@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline · 6天前 缓存

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

0 人收藏 0 人点赞
#qwen

@cjzafir: 一个3B参数的小语言模型:VibeThinker(基于Qwen 2.5微调)性能媲美Claude Opus 4.5。性能与以下模型相当: > De…

X AI KOLs Timeline · 6天前 缓存

VibeThinker是一个3B参数的模型,基于Qwen 2.5微调,通过创新的后训练方法(包括多路径思维和在数学、编程、科学上的分阶段训练),实现了与Claude Opus 4.5以及更大的模型(如DeepSeek v3)相当的性能。

0 人收藏 0 人点赞
#qwen

@witcheer:这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优(!!!)。 - 质量(MMLU/ARC/HellaS…)

X AI KOLs Timeline · 6天前 缓存

一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力,同时保持了质量,这与导致退化的合成蒸馏不同。

0 人收藏 0 人点赞
#qwen

SIQ-1 Qwen3.6:用于自动研究和自主代理

Reddit r/LocalLLaMA · 6天前

SIQ-1 Qwen3.6 是一款专为自动化研究和自主代理任务设计的新型AI模型,通过增强的代理能力扩展了Qwen系列。

0 人收藏 0 人点赞
#qwen

本地模型从几乎无用迅速变得真正有用。是什么发生了变化?

Reddit r/LocalLLaMA · 6天前

文章指出,过去一年中,本地AI模型变得显著更有用,从玩具变成了编程和工作流程的实用工具,尽管在复杂任务上仍落后于闭源模型。

0 人收藏 0 人点赞
#qwen

Rio 3.5 397B 疑似只是半失败的资金挪用骗局

Reddit r/LocalLLaMA · 6天前

一项调查揭示,耗资10万美元的 Rio 3.5 397B AI 模型很可能只是 Nex N2 Pro 的简单合并,并未经过任何训练,从而引发了资金挪用的指控。

0 人收藏 0 人点赞
#qwen

@MiaAI_lab: MTP 已上线,试试吧 https://huggingface.co/Mia-AiLab/Qwable-3.6-27b-MTP…

X AI KOLs Timeline · 6天前 缓存

Mia-AiLab 发布了 Qwable-3.6-27b-MTP,这是基于 Qwen3.6-27B 的完整微调检查点,使用了经过清洗的 Fable 5 推理与指令数据集,专注于代码、结构化推理以及带有 MTP 层的本地推理。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈