标签
使用LoRA微调像阿里巴巴Qwen这样的开源模型,可以在错误分类任务上匹配或超越前沿模型性能。
用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。
VibeThinker是一个3B参数的模型,基于Qwen 2.5微调,通过创新的后训练方法(包括多路径思维和在数学、编程、科学上的分阶段训练),实现了与Claude Opus 4.5以及更大的模型(如DeepSeek v3)相当的性能。
一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力,同时保持了质量,这与导致退化的合成蒸馏不同。
SIQ-1 Qwen3.6 是一款专为自动化研究和自主代理任务设计的新型AI模型,通过增强的代理能力扩展了Qwen系列。
文章指出,过去一年中,本地AI模型变得显著更有用,从玩具变成了编程和工作流程的实用工具,尽管在复杂任务上仍落后于闭源模型。
一项调查揭示,耗资10万美元的 Rio 3.5 397B AI 模型很可能只是 Nex N2 Pro 的简单合并,并未经过任何训练,从而引发了资金挪用的指控。
Mia-AiLab 发布了 Qwable-3.6-27b-MTP,这是基于 Qwen3.6-27B 的完整微调检查点,使用了经过清洗的 Fable 5 推理与指令数据集,专注于代码、结构化推理以及带有 MTP 层的本地推理。
阿里巴巴通义实验室重点介绍了一款社区模型Qwen3.6-27B-MTP-pi-reasoning-GGUF,该模型基于Qwen3.6-27B,针对本地编码代理的自动编程和调试工作流进行了优化。
Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重,支持使用 llama.cpp 和 Ollama 等工具进行本地推理。
Georgi Gerganov 证实 Qwen3.6-27B 是一个非常强大的本地编程模型,他日常在 M2 Ultra 或 RTX 5090 上使用一个轻量级框架来运行它。
Qwen-Robot Suite 是一款面向物理世界智能的基础模型套件,使机器人能够有效地理解和与真实世界交互。
一篇批判性分析警告:许多Qwen/Claude蒸馏模型使用的训练样本太少(如4K),无法转移实际能力,与DeepSeek-R1等使用约70万样本的官方蒸馏相比,常常反而降低质量而非提升。
一位为物流公司构建多智能体运维系统的开发者探讨了在不进行微调的情况下赋予智能体机构知识的挑战,选择了带有‘人在环中’审批机制的检索层方案。
本文提出ASAG,一种无需训练的方法,基于注意力分布自适应地停止大型推理模型的推理,在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中,将token使用量减少约40%,同时准确率提升3.2%。
Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。
讨论运行 Qwen 3.6 模型的最便宜硬件选项,比较 RTX 3090 和 Tesla V100 GPU,并详细列出约 2000 美元系统的成本构成。
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。