最佳本地视觉模型——第二次基准测试更新——2026年6月21日
摘要
本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。
我之前发布了VLM基准测试的第一批结果。根据一些有价值的评论和观察,我修订并扩展了基准测试:
- 最初未考虑Gemma 4视觉预算(默认为280),导致其几乎无用。现已将其提高至最高水平,使用近期发布的最佳设置:`--image-min-tokens 560 --image-max-tokens 2240`。
- 使用`-b 4096 -ub 4096`参数,避免将图像令牌拆分为多个块(默认值为512)。
- 从ollama切换到llama.cpp。
- 数据集从20张扩展到30张图像,以覆盖更多用例。
- 扩展基准测试以测试推理与非推理模式的影响。
- 初始基准测试仅包含Q4量化;现为小型模型添加了Q8量化。
- 初始基准测试每张图像仅测试一次;现每张图像测试3次。
总计:23个模型 × 30张图像 × 3次测试 = 2,070次测试(不包括失败、调整、重跑),耗时60至70推理小时。
本次我提出三个建议,每个硬件层级一个:
| VRAM层级 | 推荐模型 | 大小 | 分数 | 速度 |
| --- | --- | --- | --- | --- |
| 4–8 GB | Qwen3.5 4B (非推理) @ Q4 | 3.2 GB | 75.5/100 | 20秒/图 |
| 12–16 GB | Qwen3-VL 8B @ Q8 (非Q4) | 8.1 GB | 74.4/100 | 26秒/图 |
| 24+ GB | Qwen3.6 27B (非推理) @ Q4 | 16.9 GB | 79.6/100 | 70秒/图 |
我注意到一些意料之外的有趣结果:
- **推理模式损害视觉性能**。所有Qwen混合推理模型在`enable_thinking=false`时得分更高。因为视觉是感知而非推理。推理增加了不稳定、超时和空输出。
- **MoE大小对视觉具有误导性**。MoE模型与更小的密集模型表现相当,且不如同等大小的密集模型。事后看来合理——MoE本质上是多个小型模型的集合。其庞大的总参数量购买的是知识广度,而非感知深度(感知深度随密度扩展)。
- **Q8并非总是改进**。它改善了Gemma 4(更一致,幻觉更少),但削弱了Qwen混合推理模型(思考时间过长,导致频繁超时)。唯一严格获胜的Q8是Qwen3-VL 8B-Q8。
以下是完整质量排名,按有效分数(原始分数 × 完成率)排序。σ表示3次运行间的稳定性。
| # | 变体 | 量化 | 模式 | 分数 | σ | 成功 | 备注 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| 1 | Qwen3.6 27B | Q4 | 非推理 | 79.6 | 0.24 | 90/90 | 冠军 |
| 2 | Qwen3.6 27B | Q4 | 推理 | 78.2 | 0.26 | 81/90 | 相同模型,更慢 |
| 3 | Qwen3.6 35B-A3B | Q4 | 非推理 | 76.4 | 0.55 | 90/90 | MoE |
| 4 | Qwen3.5 4B | Q4 | 非推理 | 75.5 | 0.48 | 90/90 | 最佳性能/GB |
| 5 | GLM-4.6V-Flash 9B | Q4 | — | 75.1 | 0.53 | 90/90 | 最佳中文OCR |
| 6 | Qwen3.6 35B-A3B | Q4 | 推理 | 75.0 | 0.31 | 90/90 | MoE |
| 7 | Gemma 4 31B | Q4 | — | 74.6 | 0.45 | 90/90 | 慢(93秒) |
| 8 | Qwen3-VL 8B | Q8 | — | 74.4 | 0.33 | 90/90 | 唯一完美Q8 |
| 9 | Qwen3-VL 8B | Q4 | — | 73.1 | 0.52 | 90/90 | |
| 10 | Qwen3.5 9B | Q4 | 非推理 | 73.1 | 0.58 | 90/90 | |
| 11 | Gemma 4 26B-A4B | Q4 | — | 72.7 | 0.51 | 90/90 | |
| 12 | Qwen3.5 9B | Q4 | 推理 | 72.7 | 0.52 | 90/90 | |
| 13 | GLM-9B | Q8 | — | 73.4原始 / 68.5有效 | 0.51 | 84/90 | 相比Q4下降 |
| 14 | Qwen3.5 4B | Q4 | 推理 | 70.6 | 0.77 | 90/90 | 不稳定 |
| 15 | Qwen3-VL 4B | Q4 | — | 65.9 | 0.76 | 90/90 | 退化 |
| 16 | Qwen3.5 4B | Q8 | 非推理 | 65.7 | 0.51 | 部分 | 相比Q4下降 |
| 17 | Qwen3-VL 4B | Q8 | — | 65.3 | 1.03 | 87/93 | 最差σ |
| 18 | Gemma 4 12B | Q8 | — | 76.6原始 / 59.7有效 | 0.28 | 74/95 | 22%超时 |
| 19 | Gemma 4 12B | Q4 | — | 64.1 | 0.66 | 90/90 | 幻觉 |
| 20 | Gemma 4 E4B | Q8 | — | 63.9 | 0.46 | 78/90 | |
| 21 | Gemma 4 E4B | Q4 | — | 58.8 | 0.60 | 90/90 | 计数错误 |
| 22 | Qwen3.5 9B | Q8 | 非推理 | 部分 | — | ~85%失败 | 不可用 |
| 23 | Qwen3.5 9B | Q8 | 推理 | 部分 | — | ~60%失败 | 不可用 |
以下是关于其中一些模型的更多信息(上述数字无法完全体现),基于对实际输出的阅读:
- **Qwen3.6-27B(Q4=16.9GB)**:最佳质量,最佳稳定性,禁用推理时无失败。非推理模式大幅提升速度,并避免了因推理过长导致的超时。回答非常直接。
- **Qwen3.6-35B-A3B(Q4=21.9GB)**:根据数据,可能看起来是快速替代方案,但实际表现很少优于较小模型。最大问题除了尺寸外,是响应的高方差和不可预测性。跳过它,MoE不适合视觉。
- **Qwen3-VL-8B-Instruct(Q4=5.8GB,Q8=8.1GB)**:唯一在Q8上实现100%可靠性的模型。Q8相比Q4在质量和一致性上均有大幅提升。
- **Qwen3.5-4B(Q4=3.2GB)**:使用时应禁用推理;启用后,在密集图像上容易耗尽令牌预算并报错或超时。Q8比Q4差很多,在密集图像上也会超时。Q4非推理模式无这些问题。
**测试方法规格:**
- Apple M2 Max,96GB RAM
- 运行时:llama.cpp b9690 via llama-server
- 模型:11个基础模型,Q4_K_M;其中7个较小模型添加Q8_0
- 混合推理模型(Qwen3.5/3.6)分别测试启用和禁用推理模式
- 30张图像,涵盖截图、照片、海报、艺术、医学、科学图表、密集场景和多语言内容
- 每个(模型×图像)运行3次,取中位数运行分数
- 混合评分:40%确定性探测(OCR、计数、幻觉检查)+ 60%基于人工为每张图像创建的详细真实描述的LLM评审
- 超时:每次调用300秒(快速失败,避免失控推理)
相似文章
2026年中本地模型
2026年中本地AI模型的技术概览,重点介绍开放权重模型如何通过混合专家模型和稀疏注意力机制的进步缩小了与前沿模型的差距,从而实现高效的本地推理。
可在RTX 6000 Pro上运行的最佳图像视觉模型
讨论可在RTX 6000 Pro GPU上运行的最佳图像视觉模型,可能侧重于本地推理性能和兼容性。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
新本地模型在PII移除上达到接近前沿性能,仅需9毫秒CPU推理
介绍了ScreenLeak基准,用于衡量计算机使用AI数据中的PII编辑,并提出了两个本地模型(用于文本的v45_phase3和用于图像的rfdetr_v8),在低延迟下实现了接近前沿的性能。
LEVANTE-bench:使用认知任务对VLM与儿童进行多尺度比较(或者,“你的VLM比五年级学生更聪明吗?”)
本文介绍了LEVANTE-bench,这是一个系统评估视觉-语言模型在六项认知任务上的表现,并将其与5-12岁儿童的表现进行比较的基准测试,发现当前的VLM仅部分与儿童的认知能力相符。