标签
Mia-AiLab 发布了 Qwable-3.6-27b,这是一个基于清理后的推理和指令数据集对 Qwen3.6-27B 进行全参数微调的检查点,针对编程、技术辅助和结构化回复进行了优化。
一种名为kvflash的新型KV缓存优化,可在单张RTX 3090上使Qwen 3.6-27B的生成速度翻倍并降低显存使用,同时保持准确性。
用户报告称 Qwen3.6 27B NVFP4 量化版本在编码方面不可靠,尽管吞吐量高但质量不稳定,并建议 Q4_K_M 可能更稳定。
用户就如何在 Q4 量化的 Qwen 3.6 35B-A3B 和 Q8 量化的 Gemma 4 12B 之间做出选择征求意见,用于本地代码库工作,设备为 32GB 统一内存。
A developer showcases a fully local voice chatbot running Qwen3.5-397B, Whisper-small, and Orpheus TTS with real-time streaming and interruption recovery. The chatbot, named Athena, engages in deep philosophical discussions about consciousness and self-preservation.
2026年中本地AI模型的技术概览,重点介绍开放权重模型如何通过混合专家模型和稀疏注意力机制的进步缩小了与前沿模型的差距,从而实现高效的本地推理。
用户分享了在2026年第二季度使用3x3090(72GB显存)配置运行大型LLM的经验,推荐了GPT-OSS 120b、Qwen3.5 122b和GLM Air 4.5 106B等模型,并询问是否有更新的替代方案。
使用 RTX 5080 和 RTX 3090 GPU 的配置在 Qwen 3.6 27B Q8 模型上实现了每秒 80 个令牌。
一位开发者打造了一个具有生动眼睛、物体追踪功能,并支持ChatGPT、Qwen和离线AI模型的3D打印机器人,随后免费公开了所有STL文件、代码和硬件设计,凸显了从创意到成品之间差距的日益缩小。
本文描述了一个脚手架(scaffold),它通过在 Qwen-3.6-27B 和 Gemma-4-31B 上使用迭代修正和分支探索来扩展测试时计算,从而在代码优化方面超越 Claude Mythos。文中附有论文链接和 GitHub 仓库地址。
一位用户使用llama.cpp(行/张量切分)和ik_llama(图切分)在两张RTX 3080 20GB上对双GPU推理速度进行了基准测试,使用Qwen3.6-27B GGUF模型,比较了token生成和提示处理速度。
作者描述使用基于Qwen模型构建的知识图谱提取器来生成具有挑战性的多跳问答对,用于评估智能体搜索系统。
一位用户询问 27B 参数的 Qwen 3.6 模型是否能在深度网络搜索、编码和代理任务上超越 Gemini 2.5 Pro 和 Sonnet 3.7,并寻求能打败 Gemini 2.5 Pro 的最低参数模型建议。
一位用户分享了针对不同量化版本的Gemma和Qwen模型在算术、总统出生日期和注意力测试中的准确率对比基准结果,强调了模型规模与量化级别之间的权衡。
VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。
发布基于 Qwen3.5 的微调版本:Nex-N2 Pro 397B 和 Nex-N2 Mini 35B,基准测试表现强劲。
Qwen Tongyi Lab提出RLCSD以解决同策略自蒸馏中的风格漂移问题,该问题中学习信号集中在风格标记上,而非任务关键推理标记。他们的方法使用对比监督来聚焦于任务相关标记,在推理基准测试中取得了相较先前方法一致的改进。
一位用户分享了他们使用AutoRound对Qwen 3.6 27B进行GGUF量化的版本,声称其性能优于其他量化版本,并邀请反馈。