更新的Qwen模型在摘要生成方面表现更差?
摘要
LLM摘要性能对比显示,Qwen 3在30B参数范围内领先,其次是Gemma 4,而更新的Qwen模型可能针对代理任务进行了优化。
我们使用真实人类标注的摘要来评估各种模型,并以LLM作为评判者,发现在30B参数范围内,Qwen 3表现最佳,其次是Gemma 4。感觉更新的Qwen模型似乎在针对代理任务进行优化?
相似文章
Qwen3.6 是当前本地代理使用的最佳模型吗?
有用户报告称,Qwen3.6 35B A3B 在代理任务上优于 Gemma4 和 GLM 4.7 Flash REAP 等其他本地模型,不过偶尔仍会出现循环。
Qwen 35b a3b 令我惊喜
用户报告了使用 Qwen 35b a3b 进行代理编码任务的积极体验,指出在其使用场景中它优于 Gemma4 26b,并且在演示/数据分析方面表现出色,尤其是在代理模式而非聊天模式下。
我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。
Gemma 4 26b a4b 确实是我尝试过的最适合语言学习和科学查询的模型!
用户报告称,Gemma 4 26b 在语言学习和科学查询方面优于 Qwen 3.5/3.6,尽管在编码任务上稍显逊色,并邀请大家讨论小型 MoE 模型在编码以外的其他用例。
大家怎么看?我们能说 Qwen 3.6 27B 打败了 Gemini 2.5 Pro 吗?或者 Sonnet 3.7?因为我在测试中发现 27B 表现更好。
一位用户询问 27B 参数的 Qwen 3.6 模型是否能在深度网络搜索、编码和代理任务上超越 Gemini 2.5 Pro 和 Sonnet 3.7,并寻求能打败 Gemini 2.5 Pro 的最低参数模型建议。