更新的Qwen模型在摘要生成方面表现更差？

Reddit r/LocalLLaMA 2026/06/09 20:15 新闻

summarization benchmarking qwen gemma llm-evaluation

摘要

LLM摘要性能对比显示，Qwen 3在30B参数范围内领先，其次是Gemma 4，而更新的Qwen模型可能针对代理任务进行了优化。

我们使用真实人类标注的摘要来评估各种模型，并以LLM作为评判者，发现在30B参数范围内，Qwen 3表现最佳，其次是Gemma 4。感觉更新的Qwen模型似乎在针对代理任务进行优化？

查看原文

相似文章

Reddit r/LocalLLaMA

有用户报告称，Qwen3.6 35B A3B 在代理任务上优于 Gemma4 和 GLM 4.7 Flash REAP 等其他本地模型，不过偶尔仍会出现循环。

Reddit r/LocalLLaMA

用户报告了使用 Qwen 35b a3b 进行代理编码任务的积极体验，指出在其使用场景中它优于 Gemma4 26b，并且在演示/数据分析方面表现出色，尤其是在代理模式而非聊天模式下。

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

Reddit r/LocalLLaMA

用户报告称，Gemma 4 26b 在语言学习和科学查询方面优于 Qwen 3.5/3.6，尽管在编码任务上稍显逊色，并邀请大家讨论小型 MoE 模型在编码以外的其他用例。

Reddit r/LocalLLaMA

一位用户询问 27B 参数的 Qwen 3.6 模型是否能在深度网络搜索、编码和代理任务上超越 Gemini 2.5 Pro 和 Sonnet 3.7，并寻求能打败 Gemini 2.5 Pro 的最低参数模型建议。