更新的Qwen模型在摘要生成方面表现更差?

Reddit r/LocalLLaMA 新闻

摘要

LLM摘要性能对比显示,Qwen 3在30B参数范围内领先,其次是Gemma 4,而更新的Qwen模型可能针对代理任务进行了优化。

我们使用真实人类标注的摘要来评估各种模型,并以LLM作为评判者,发现在30B参数范围内,Qwen 3表现最佳,其次是Gemma 4。感觉更新的Qwen模型似乎在针对代理任务进行优化?
查看原文

相似文章

Qwen 35b a3b 令我惊喜

Reddit r/LocalLLaMA

用户报告了使用 Qwen 35b a3b 进行代理编码任务的积极体验,指出在其使用场景中它优于 Gemma4 26b,并且在演示/数据分析方面表现出色,尤其是在代理模式而非聊天模式下。