标签
本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。
ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区,允许反复接触,逐步提高rollout准确性,而不会导致策略漂移。该方法比GRPO解决了更多难题,尤其是那些初始准确率接近零的问题。
本文提出并验证了一种用于评估单图像转3D网格质量的VLM评判协议,表明诸如render-CLIP和几何统计量等廉价代理无法可靠地追踪感知质量。
本文研究了自动驾驶系统与人类在不同地理位置(利马和纽约市)的视觉问答任务中的表现,发现人类和VLM无论地点如何都表现出相似的性能,但根据问题类型存在差异。
Merve (@mervenoyann) 分享了使用多个小型 VLM 作为评判器的管线的第二天发现,在道路标志检测中仅用 1.3k 样本就达到了 map@50=0.8028。这条推文比较了模型拒绝率,讨论了数据集缩小、超具体提示以及泛化该库的计划。
英伟达推出了SpatialClaw,一个基于代码的免训练代理框架,用于复杂视觉空间推理任务,在20个基准上平均达到59.9%,比之前最佳模型高11.2分。
呼吁在AI研究中采用开源训练框架,介绍FeynRL——一个模块化且显式的框架,用于LLM、VLM和智能体的强化学习后训练,旨在让训练过程可见且可修改。
ProCUA-SFT 是一个大规模合成数据集,包含 310 万个步骤级别的 SFT 样本,用于训练计算机使用代理。该数据集通过使用单一 VLM(Kimi-K2.5)的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%,比基础模型提高了 18.7 个百分点。
谷歌的Gemma 4 12B模型于上周发布,在HuggingFace上已超过400万次下载,使其成为最受欢迎的无编码器视觉语言模型(VLM),也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡,可在本地笔记本电脑上运行,支持多步推理和智能体工作流。
NVIDIA 推出 SpatialClaw,一个无需训练的空间推理智能体,利用 VLM 在持久化内核中编写 Python 代码,组合感知工具,并修订计划,在20项基准测试中超越先前智能体 +11.2 分。
AutoMine是一种强大的自优化场景挖掘方法,利用LLM和VLM从自动驾驶日志中挖掘高价值场景,在CVPR 2026的Argoverse 2场景挖掘竞赛中取得了最高分数。
该论文推出KCSAT-ML基准,包含十年韩国高考数学题及全国考生错误率,并提出难度对齐推理增益(DRG)指标,揭示模型错误与人类难度的对齐模式,展现相同准确率下截然不同的推理行为。
对8种主要AI模型架构的可视化解析,包括LLM、VLM、MoE、SLM等,外加来自MIT的递归语言模型的额外介绍。
VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。
本文探讨了将视觉图思维导图用作LLMs的推理支架,发现即使没有直接答案提示,视觉引导仍然有效,而将图扁平化为文本则会失去优势。
NVIDIA研究人员开发了一种技术,通过消除VLM基础模型用于自动回归逐token预测的步骤,将边界框检测速度提升了10倍。
Function2Scene 通过解析用户需求并应用设计约束,结合几何分析、LLM推理和VLM评估的迭代优化循环,从功能描述生成3D室内布局,在满足功能需求方面优于基线方法。
一款名为 KVANTA 的新开源 KV 缓存计算器工具已发布,支持来自 Hugging Face 的任何 LLM/VLM。
开源 Marlin-2B,一个用于从视频中提取结构化信息的小型VLM,经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型,与 Gemini-2.5-flash 竞争。
作者讨论了构建一个小型VLM用于桌面GUI自动化,以在没有API的应用之间移动数据,并表达了对于本地模型在非编程自主用例方面的兴趣。