最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA 2026/06/21 18:18 新闻

vision local-model benchmark vlm llama-cpp qwen gemma

摘要

本文介绍了本地视觉语言模型基准测试的第二次更新，比较了23个模型在30张图像上的表现（使用修订设置），并为不同VRAM层级提供了性能建议。主要发现包括：推理模式会损害视觉性能，且MoE模型在感知任务上表现不如密集模型。

我之前发布了VLM基准测试的第一批结果。根据一些有价值的评论和观察，我修订并扩展了基准测试： - 最初未考虑Gemma 4视觉预算（默认为280），导致其几乎无用。现已将其提高至最高水平，使用近期发布的最佳设置：`--image-min-tokens 560 --image-max-tokens 2240`。 - 使用`-b 4096 -ub 4096`参数，避免将图像令牌拆分为多个块（默认值为512）。 - 从ollama切换到llama.cpp。 - 数据集从20张扩展到30张图像，以覆盖更多用例。 - 扩展基准测试以测试推理与非推理模式的影响。 - 初始基准测试仅包含Q4量化；现为小型模型添加了Q8量化。 - 初始基准测试每张图像仅测试一次；现每张图像测试3次。总计：23个模型 × 30张图像 × 3次测试 = 2,070次测试（不包括失败、调整、重跑），耗时60至70推理小时。本次我提出三个建议，每个硬件层级一个： | VRAM层级 | 推荐模型 | 大小 | 分数 | 速度 | | --- | --- | --- | --- | --- | | 4–8 GB | Qwen3.5 4B (非推理) @ Q4 | 3.2 GB | 75.5/100 | 20秒/图 | | 12–16 GB | Qwen3-VL 8B @ Q8 (非Q4) | 8.1 GB | 74.4/100 | 26秒/图 | | 24+ GB | Qwen3.6 27B (非推理) @ Q4 | 16.9 GB | 79.6/100 | 70秒/图 | 我注意到一些意料之外的有趣结果： - **推理模式损害视觉性能**。所有Qwen混合推理模型在`enable_thinking=false`时得分更高。因为视觉是感知而非推理。推理增加了不稳定、超时和空输出。 - **MoE大小对视觉具有误导性**。MoE模型与更小的密集模型表现相当，且不如同等大小的密集模型。事后看来合理——MoE本质上是多个小型模型的集合。其庞大的总参数量购买的是知识广度，而非感知深度（感知深度随密度扩展）。 - **Q8并非总是改进**。它改善了Gemma 4（更一致，幻觉更少），但削弱了Qwen混合推理模型（思考时间过长，导致频繁超时）。唯一严格获胜的Q8是Qwen3-VL 8B-Q8。以下是完整质量排名，按有效分数（原始分数 × 完成率）排序。σ表示3次运行间的稳定性。 | # | 变体 | 量化 | 模式 | 分数 | σ | 成功 | 备注 | | --- | --- | --- | --- | --- | --- | --- | --- | | 1 | Qwen3.6 27B | Q4 | 非推理 | 79.6 | 0.24 | 90/90 | 冠军 | | 2 | Qwen3.6 27B | Q4 | 推理 | 78.2 | 0.26 | 81/90 | 相同模型，更慢 | | 3 | Qwen3.6 35B-A3B | Q4 | 非推理 | 76.4 | 0.55 | 90/90 | MoE | | 4 | Qwen3.5 4B | Q4 | 非推理 | 75.5 | 0.48 | 90/90 | 最佳性能/GB | | 5 | GLM-4.6V-Flash 9B | Q4 | — | 75.1 | 0.53 | 90/90 | 最佳中文OCR | | 6 | Qwen3.6 35B-A3B | Q4 | 推理 | 75.0 | 0.31 | 90/90 | MoE | | 7 | Gemma 4 31B | Q4 | — | 74.6 | 0.45 | 90/90 | 慢（93秒） | | 8 | Qwen3-VL 8B | Q8 | — | 74.4 | 0.33 | 90/90 | 唯一完美Q8 | | 9 | Qwen3-VL 8B | Q4 | — | 73.1 | 0.52 | 90/90 | | | 10 | Qwen3.5 9B | Q4 | 非推理 | 73.1 | 0.58 | 90/90 | | | 11 | Gemma 4 26B-A4B | Q4 | — | 72.7 | 0.51 | 90/90 | | | 12 | Qwen3.5 9B | Q4 | 推理 | 72.7 | 0.52 | 90/90 | | | 13 | GLM-9B | Q8 | — | 73.4原始 / 68.5有效 | 0.51 | 84/90 | 相比Q4下降 | | 14 | Qwen3.5 4B | Q4 | 推理 | 70.6 | 0.77 | 90/90 | 不稳定 | | 15 | Qwen3-VL 4B | Q4 | — | 65.9 | 0.76 | 90/90 | 退化 | | 16 | Qwen3.5 4B | Q8 | 非推理 | 65.7 | 0.51 | 部分 | 相比Q4下降 | | 17 | Qwen3-VL 4B | Q8 | — | 65.3 | 1.03 | 87/93 | 最差σ | | 18 | Gemma 4 12B | Q8 | — | 76.6原始 / 59.7有效 | 0.28 | 74/95 | 22%超时 | | 19 | Gemma 4 12B | Q4 | — | 64.1 | 0.66 | 90/90 | 幻觉 | | 20 | Gemma 4 E4B | Q8 | — | 63.9 | 0.46 | 78/90 | | | 21 | Gemma 4 E4B | Q4 | — | 58.8 | 0.60 | 90/90 | 计数错误 | | 22 | Qwen3.5 9B | Q8 | 非推理 | 部分 | — | ~85%失败 | 不可用 | | 23 | Qwen3.5 9B | Q8 | 推理 | 部分 | — | ~60%失败 | 不可用 | 以下是关于其中一些模型的更多信息（上述数字无法完全体现），基于对实际输出的阅读： - **Qwen3.6-27B（Q4=16.9GB）**：最佳质量，最佳稳定性，禁用推理时无失败。非推理模式大幅提升速度，并避免了因推理过长导致的超时。回答非常直接。 - **Qwen3.6-35B-A3B（Q4=21.9GB）**：根据数据，可能看起来是快速替代方案，但实际表现很少优于较小模型。最大问题除了尺寸外，是响应的高方差和不可预测性。跳过它，MoE不适合视觉。 - **Qwen3-VL-8B-Instruct（Q4=5.8GB，Q8=8.1GB）**：唯一在Q8上实现100%可靠性的模型。Q8相比Q4在质量和一致性上均有大幅提升。 - **Qwen3.5-4B（Q4=3.2GB）**：使用时应禁用推理；启用后，在密集图像上容易耗尽令牌预算并报错或超时。Q8比Q4差很多，在密集图像上也会超时。Q4非推理模式无这些问题。 **测试方法规格：** - Apple M2 Max，96GB RAM - 运行时：llama.cpp b9690 via llama-server - 模型：11个基础模型，Q4_K_M；其中7个较小模型添加Q8_0 - 混合推理模型（Qwen3.5/3.6）分别测试启用和禁用推理模式 - 30张图像，涵盖截图、照片、海报、艺术、医学、科学图表、密集场景和多语言内容 - 每个（模型×图像）运行3次，取中位数运行分数 - 混合评分：40%确定性探测（OCR、计数、幻觉检查）+ 60%基于人工为每张图像创建的详细真实描述的LLM评审 - 超时：每次调用300秒（快速失败，避免失控推理）

查看原文

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

相似文章

2026年中本地模型

可在RTX 6000 Pro上运行的最佳图像视觉模型

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

新本地模型在PII移除上达到接近前沿性能，仅需9毫秒CPU推理

LEVANTE-bench：使用认知任务对VLM与儿童进行多尺度比较（或者，“你的VLM比五年级学生更聪明吗？”）

提交意见反馈