vlm

#vlm

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA ↗ · 2天前

本文介绍了本地视觉语言模型基准测试的第二次更新，比较了23个模型在30张图像上的表现（使用修订设置），并为不同VRAM层级提供了性能建议。主要发现包括：推理模式会损害视觉性能，且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞

#vlm

使用回放缓冲区重新审视难题 (8分钟阅读)

TLDR AI ↗ · 5天前缓存

ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区，允许反复接触，逐步提高rollout准确性，而不会导致策略漂移。该方法比GRPO解决了更多难题，尤其是那些初始准确率接近零的问题。

0 人收藏 0 人点赞

#vlm

面向单图像3D网格质量的跨模型VLM评判协议（以及为何廉价代理存在不足）

arXiv cs.LG ↗ · 5天前缓存

本文提出并验证了一种用于评估单图像转3D网格质量的VLM评判协议，表明诸如render-CLIP和几何统计量等廉价代理无法可靠地追踪感知质量。

0 人收藏 0 人点赞

#vlm

Robusto-2：在利马和纽约市对人与VLMs进行自动驾驶基准测试

Hugging Face Daily Papers ↗ · 6天前缓存

本文研究了自动驾驶系统与人类在不同地理位置（利马和纽约市）的视觉问答任务中的表现，发现人类和VLM无论地点如何都表现出相似的性能，但根据问题类型存在差异。

0 人收藏 0 人点赞

#vlm

@mervenoyann：这条管线的第二天发现 > 它有效，在道路标志检测中针对人工标注得到了 map@50=0.8028，使用了……

X AI KOLs Timeline ↗ · 6天前缓存

Merve (@mervenoyann) 分享了使用多个小型 VLM 作为评判器的管线的第二天发现，在道路标志检测中仅用 1.3k 样本就达到了 map@50=0.8028。这条推文比较了模型拒绝率，讨论了数据集缩小、超具体提示以及泛化该库的计划。

0 人收藏 0 人点赞

#vlm

@Phoenixyin13: 英伟达的SpatialClaw新鲜出炉。这个框架，直接可以让 VLM 在持久的 Python 环境里一步步写代码，像 Jupyter 一样慢慢来。从调用 SAM3 看东西，算深度、用 NumPy、SciPy 处理数据、实时看结果，不行就…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

英伟达推出了SpatialClaw，一个基于代码的免训练代理框架，用于复杂视觉空间推理任务，在20个基准上平均达到59.9%，比之前最佳模型高11.2分。

0 人收藏 0 人点赞

#vlm

开源权重不够：我们需要开源训练框架来推动研究和更好的算法 [P]

Reddit r/MachineLearning ↗ · 2026-06-15

呼吁在AI研究中采用开源训练框架，介绍FeynRL——一个模块化且显式的框架，用于LLM、VLM和智能体的强化学习后训练，旨在让训练过程可见且可修改。

0 人收藏 0 人点赞

#vlm

ProCUA-SFT 技术报告

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

ProCUA-SFT 是一个大规模合成数据集，包含 310 万个步骤级别的 SFT 样本，用于训练计算机使用代理。该数据集通过使用单一 VLM（Kimi-K2.5）的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%，比基础模型提高了 18.7 个百分点。

0 人收藏 0 人点赞

#vlm

@AndreasPSteiner: 上周发布，仅在HuggingFace上就已超过400万次下载。这使得Gemma 4 12B成为最受欢迎的无编码器VLM…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

谷歌的Gemma 4 12B模型于上周发布，在HuggingFace上已超过400万次下载，使其成为最受欢迎的无编码器视觉语言模型（VLM），也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡，可在本地笔记本电脑上运行，支持多步推理和智能体工作流。

0 人收藏 0 人点赞

#vlm

@HuggingPapers: SpatialClaw NVIDIA 发布一个无需训练的空间推理智能体，以代码作为交互接口。VLM 编写 P…

X AI KOLs Following ↗ · 2026-06-12 缓存

NVIDIA 推出 SpatialClaw，一个无需训练的空间推理智能体，利用 VLM 在持久化内核中编写 Python 代码，组合感知工具，并修订计划，在20项基准测试中超越先前智能体 +11.2 分。

0 人收藏 0 人点赞

#vlm

面向AV2 2026场景挖掘挑战赛的AutoMine解决方案

arXiv cs.AI ↗ · 2026-06-11 缓存

AutoMine是一种强大的自优化场景挖掘方法，利用LLM和VLM从自动驾驶日志中挖掘高价值场景，在CVPR 2026的Argoverse 2场景挖掘竞赛中取得了最高分数。

0 人收藏 0 人点赞

#vlm

KCSAT-ML: 利用全国队列人类难度探究推理模型

arXiv cs.CL ↗ · 2026-06-10 缓存

该论文推出KCSAT-ML基准，包含十年韩国高考数学题及全国考生错误率，并提出难度对齐推理增益（DRG）指标，揭示模型错误与人类难度的对齐模式，展现相同准确率下截然不同的推理行为。

0 人收藏 0 人点赞

#vlm

@_avichawla：8种AI模型架构的视觉解析：人们往往把LLM视作整个领域，但它们只是其中一员……

X AI KOLs Timeline ↗ · 2026-06-09 缓存

对8种主要AI模型架构的可视化解析，包括LLM、VLM、MoE、SLM等，外加来自MIT的递归语言模型的额外介绍。

0 人收藏 0 人点赞

#vlm

VAMPS：视觉辅助数学问题求解基准

arXiv cs.AI ↗ · 2026-06-04 缓存

VAMPS 是一个包含 1,168 道多模态双语数学题的新基准，旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现：即便在绘图本是自然解题策略的问题上，直接分析求解的表现也出人意料地优于借助工具进行可视化求解。

0 人收藏 0 人点赞

#vlm

大型语言模型中用于结构推理的视觉图支架

arXiv cs.AI ↗ · 2026-06-03 缓存

本文探讨了将视觉图思维导图用作LLMs的推理支架，发现即使没有直接答案提示，视觉引导仍然有效，而将图扁平化为文本则会失去优势。

0 人收藏 0 人点赞

#vlm

@DataChaz: NVIDIA 刚完成了一项疯狂之举：通过移除整个行业认为必不可少的步骤，将边界框检测速度提升至10倍。

X AI KOLs Timeline ↗ · 2026-06-01 缓存

NVIDIA研究人员开发了一种技术，通过消除VLM基础模型用于自动回归逐token预测的步骤，将边界框检测速度提升了10倍。

0 人收藏 0 人点赞

#vlm

Function2Scene: 基于功能规范的3D室内场景布局

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

Function2Scene 通过解析用户需求并应用设计约束，结合几何分析、LLM推理和VLM评估的迭代优化循环，从功能描述生成3D室内布局，在满足功能需求方面优于基线方法。

0 人收藏 0 人点赞

#vlm

（又一个）KV 缓存计算器 - kvanta.vcerny.cz

Reddit r/LocalLLaMA ↗ · 2026-05-25

一款名为 KVANTA 的新开源 KV 缓存计算器工具已发布，支持来自 Hugging Face 的任何 LLM/VLM。

0 人收藏 0 人点赞

#vlm

@HappyyPablo: 开源 Marlin-2B，一个小型视觉语言模型，用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

X AI KOLs Timeline ↗ · 2026-05-19 缓存

开源 Marlin-2B，一个用于从视频中提取结构化信息的小型VLM，经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型，与 Gemini-2.5-flash 竞争。

1 人收藏 1 人点赞

#vlm

你让本地模型自主完成了哪些非编程任务？

Reddit r/LocalLLaMA ↗ · 2026-05-19

作者讨论了构建一个小型VLM用于桌面GUI自动化，以在没有API的应用之间移动数据，并表达了对于本地模型在非编程自主用例方面的兴趣。

0 人收藏 0 人点赞

vlm

提交意见反馈