qwen

#qwen

@LangChain: 微调开源模型可以超越或匹配前沿模型。基础 @Alibaba_Qwen 开箱即有良好的提示能力：强…

X AI KOLs Following ↗ · 2026-06-17 缓存

使用LoRA微调像阿里巴巴Qwen这样的开源模型，可以在错误分类任务上匹配或超越前沿模型性能。

0 人收藏 0 人点赞

#qwen

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型，实现了超过 90 tokens/s 的推理速度，预填充速度超过 1000 t/s，表明在消费级硬件上本地部署大型语言模型是可行的。

0 人收藏 0 人点赞

#qwen

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试，实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

0 人收藏 0 人点赞

#qwen

@cjzafir: 一个3B参数的小语言模型：VibeThinker（基于Qwen 2.5微调）性能媲美Claude Opus 4.5。性能与以下模型相当： > De…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

VibeThinker是一个3B参数的模型，基于Qwen 2.5微调，通过创新的后训练方法（包括多路径思维和在数学、编程、科学上的分阶段训练），实现了与Claude Opus 4.5以及更大的模型（如DeepSeek v3）相当的性能。

0 人收藏 0 人点赞

#qwen

@witcheer：这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优（！！！）。 - 质量（MMLU/ARC/HellaS…）

X AI KOLs Timeline ↗ · 2026-06-17 缓存

一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力，同时保持了质量，这与导致退化的合成蒸馏不同。

0 人收藏 0 人点赞

#qwen

SIQ-1 Qwen3.6：用于自动研究和自主代理

Reddit r/LocalLLaMA ↗ · 2026-06-17

SIQ-1 Qwen3.6 是一款专为自动化研究和自主代理任务设计的新型AI模型，通过增强的代理能力扩展了Qwen系列。

0 人收藏 0 人点赞

#qwen

本地模型从几乎无用迅速变得真正有用。是什么发生了变化？

Reddit r/LocalLLaMA ↗ · 2026-06-17

文章指出，过去一年中，本地AI模型变得显著更有用，从玩具变成了编程和工作流程的实用工具，尽管在复杂任务上仍落后于闭源模型。

0 人收藏 0 人点赞

#qwen

Rio 3.5 397B 疑似只是半失败的资金挪用骗局

Reddit r/LocalLLaMA ↗ · 2026-06-17

一项调查揭示，耗资10万美元的 Rio 3.5 397B AI 模型很可能只是 Nex N2 Pro 的简单合并，并未经过任何训练，从而引发了资金挪用的指控。

0 人收藏 0 人点赞

#qwen

@MiaAI_lab: MTP 已上线，试试吧 https://huggingface.co/Mia-AiLab/Qwable-3.6-27b-MTP…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

Mia-AiLab 发布了 Qwable-3.6-27b-MTP，这是基于 Qwen3.6-27B 的完整微调检查点，使用了经过清洗的 Fable 5 推理与指令数据集，专注于代码、结构化推理以及带有 MTP 层的本地推理。

0 人收藏 0 人点赞

#qwen

@Ali_TongyiLab: 我们很高兴重点介绍来自开发者的一款优秀社区模型：Qwen3.6-27B-MTP-pi-reasoning-GGUF。基于…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

阿里巴巴通义实验室重点介绍了一款社区模型Qwen3.6-27B-MTP-pi-reasoning-GGUF，该模型基于Qwen3.6-27B，针对本地编码代理的自动编程和调试工作流进行了优化。

0 人收藏 0 人点赞

#qwen

@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件：

X AI KOLs Following ↗ · 2026-06-16 缓存

Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重，支持使用 llama.cpp 和 Ollama 等工具进行本地推理。

0 人收藏 0 人点赞

#qwen

引用 Georgi Gerganov

Simon Willison's Blog ↗ · 2026-06-16 缓存

Georgi Gerganov 证实 Qwen3.6-27B 是一个非常强大的本地编程模型，他日常在 M2 Ultra 或 RTX 5090 上使用一个轻量级框架来运行它。

0 人收藏 0 人点赞

#qwen

Qwen-Robot Suite: 面向物理世界智能的基础模型套件

Hacker News Top ↗ · 2026-06-16

Qwen-Robot Suite 是一款面向物理世界智能的基础模型套件，使机器人能够有效地理解和与真实世界交互。

0 人收藏 0 人点赞

#qwen

警惕Qwen/Claude蒸馏模型——它们往往不如基础模型

Reddit r/LocalLLaMA ↗ · 2026-06-16

一篇批判性分析警告：许多Qwen/Claude蒸馏模型使用的训练样本太少（如4K），无法转移实际能力，与DeepSeek-R1等使用约70万样本的官方蒸馏相比，常常反而降低质量而非提升。

0 人收藏 0 人点赞

#qwen

如何在不进行微调的情况下让智能体掌握公司知识？

Reddit r/AI_Agents ↗ · 2026-06-16

一位为物流公司构建多智能体运维系统的开发者探讨了在不进行微调的情况下赋予智能体机构知识的挑战，选择了带有‘人在环中’审批机制的检索层方案。

0 人收藏 0 人点赞

#qwen

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

arXiv cs.CL ↗ · 2026-06-16 缓存

本文提出ASAG，一种无需训练的方法，基于注意力分布自适应地停止大型推理模型的推理，在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中，将token使用量减少约40%，同时准确率提升3.2%。

0 人收藏 0 人点赞

#qwen

DFlash与Spec V2解码（14分钟阅读）

TLDR AI ↗ · 2026-06-16 缓存

Z Lab、SGLang和Modal发布DFlash，这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型，采用块扩散和KV注入技术，相较于基线实现超过4倍吞吐量提升，相较于原生MTP实现1.5倍提升。

0 人收藏 0 人点赞

#qwen

Qwen 3.6 最便宜的硬件：27B 和 35B-A3B 版本

Reddit r/LocalLLaMA ↗ · 2026-06-15

讨论运行 Qwen 3.6 模型的最便宜硬件选项，比较 RTX 3090 和 Tesla V100 GPU，并详细列出约 2000 美元系统的成本构成。

0 人收藏 0 人点赞

#qwen

@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作，将 DFlash 规范集成到 @sgl_project，并通过重叠加速……

X AI KOLs Following ↗ · 2026-06-15 缓存

Modal 与 LMSys 和 Z Lab 合作，将 DFlash 推测解码集成到 SGLang，在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升，比原生多 token 预测提升 1.5 倍。

0 人收藏 0 人点赞

#qwen

如何复制自己的写作风格

Reddit r/LocalLLaMA ↗ · 2026-06-15

用户询问，在本地LLM中提供其写作风格的样本，是放在对话中更有效，还是放在系统提示中更有效。

0 人收藏 0 人点赞

qwen

提交意见反馈