vlm

标签

Cards List
#vlm

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA · 2天前

本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞
#vlm

使用回放缓冲区重新审视难题 (8分钟阅读)

TLDR AI · 5天前 缓存

ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区,允许反复接触,逐步提高rollout准确性,而不会导致策略漂移。该方法比GRPO解决了更多难题,尤其是那些初始准确率接近零的问题。

0 人收藏 0 人点赞
#vlm

面向单图像3D网格质量的跨模型VLM评判协议(以及为何廉价代理存在不足)

arXiv cs.LG · 5天前 缓存

本文提出并验证了一种用于评估单图像转3D网格质量的VLM评判协议,表明诸如render-CLIP和几何统计量等廉价代理无法可靠地追踪感知质量。

0 人收藏 0 人点赞
#vlm

Robusto-2:在利马和纽约市对人与VLMs进行自动驾驶基准测试

Hugging Face Daily Papers · 6天前 缓存

本文研究了自动驾驶系统与人类在不同地理位置(利马和纽约市)的视觉问答任务中的表现,发现人类和VLM无论地点如何都表现出相似的性能,但根据问题类型存在差异。

0 人收藏 0 人点赞
#vlm

@mervenoyann:这条管线的第二天发现 > 它有效,在道路标志检测中针对人工标注得到了 map@50=0.8028,使用了……

X AI KOLs Timeline · 6天前 缓存

Merve (@mervenoyann) 分享了使用多个小型 VLM 作为评判器的管线的第二天发现,在道路标志检测中仅用 1.3k 样本就达到了 map@50=0.8028。这条推文比较了模型拒绝率,讨论了数据集缩小、超具体提示以及泛化该库的计划。

0 人收藏 0 人点赞
#vlm

@Phoenixyin13: 英伟达的SpatialClaw新鲜出炉。 这个框架,直接可以让 VLM 在持久的 Python 环境里一步步写代码,像 Jupyter 一样慢慢来。从调用 SAM3 看东西,算深度、用 NumPy、SciPy 处理数据、实时看结果,不行就…

X AI KOLs Timeline · 2026-06-17 缓存

英伟达推出了SpatialClaw,一个基于代码的免训练代理框架,用于复杂视觉空间推理任务,在20个基准上平均达到59.9%,比之前最佳模型高11.2分。

0 人收藏 0 人点赞
#vlm

开源权重不够:我们需要开源训练框架来推动研究和更好的算法 [P]

Reddit r/MachineLearning · 2026-06-15

呼吁在AI研究中采用开源训练框架,介绍FeynRL——一个模块化且显式的框架,用于LLM、VLM和智能体的强化学习后训练,旨在让训练过程可见且可修改。

0 人收藏 0 人点赞
#vlm

ProCUA-SFT 技术报告

Hugging Face Daily Papers · 2026-06-15 缓存

ProCUA-SFT 是一个大规模合成数据集,包含 310 万个步骤级别的 SFT 样本,用于训练计算机使用代理。该数据集通过使用单一 VLM(Kimi-K2.5)的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%,比基础模型提高了 18.7 个百分点。

0 人收藏 0 人点赞
#vlm

@AndreasPSteiner: 上周发布,仅在HuggingFace上就已超过400万次下载。这使得Gemma 4 12B成为最受欢迎的无编码器VLM…

X AI KOLs Timeline · 2026-06-12 缓存

谷歌的Gemma 4 12B模型于上周发布,在HuggingFace上已超过400万次下载,使其成为最受欢迎的无编码器视觉语言模型(VLM),也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡,可在本地笔记本电脑上运行,支持多步推理和智能体工作流。

0 人收藏 0 人点赞
#vlm

@HuggingPapers: SpatialClaw NVIDIA 发布一个无需训练的空间推理智能体,以代码作为交互接口。VLM 编写 P…

X AI KOLs Following · 2026-06-12 缓存

NVIDIA 推出 SpatialClaw,一个无需训练的空间推理智能体,利用 VLM 在持久化内核中编写 Python 代码,组合感知工具,并修订计划,在20项基准测试中超越先前智能体 +11.2 分。

0 人收藏 0 人点赞
#vlm

面向AV2 2026场景挖掘挑战赛的AutoMine解决方案

arXiv cs.AI · 2026-06-11 缓存

AutoMine是一种强大的自优化场景挖掘方法,利用LLM和VLM从自动驾驶日志中挖掘高价值场景,在CVPR 2026的Argoverse 2场景挖掘竞赛中取得了最高分数。

0 人收藏 0 人点赞
#vlm

KCSAT-ML: 利用全国队列人类难度探究推理模型

arXiv cs.CL · 2026-06-10 缓存

该论文推出KCSAT-ML基准,包含十年韩国高考数学题及全国考生错误率,并提出难度对齐推理增益(DRG)指标,揭示模型错误与人类难度的对齐模式,展现相同准确率下截然不同的推理行为。

0 人收藏 0 人点赞
#vlm

@_avichawla:8种AI模型架构的视觉解析:人们往往把LLM视作整个领域,但它们只是其中一员……

X AI KOLs Timeline · 2026-06-09 缓存

对8种主要AI模型架构的可视化解析,包括LLM、VLM、MoE、SLM等,外加来自MIT的递归语言模型的额外介绍。

0 人收藏 0 人点赞
#vlm

VAMPS:视觉辅助数学问题求解基准

arXiv cs.AI · 2026-06-04 缓存

VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。

0 人收藏 0 人点赞
#vlm

大型语言模型中用于结构推理的视觉图支架

arXiv cs.AI · 2026-06-03 缓存

本文探讨了将视觉图思维导图用作LLMs的推理支架,发现即使没有直接答案提示,视觉引导仍然有效,而将图扁平化为文本则会失去优势。

0 人收藏 0 人点赞
#vlm

@DataChaz: NVIDIA 刚完成了一项疯狂之举:通过移除整个行业认为必不可少的步骤,将边界框检测速度提升至10倍。

X AI KOLs Timeline · 2026-06-01 缓存

NVIDIA研究人员开发了一种技术,通过消除VLM基础模型用于自动回归逐token预测的步骤,将边界框检测速度提升了10倍。

0 人收藏 0 人点赞
#vlm

Function2Scene: 基于功能规范的3D室内场景布局

Hugging Face Daily Papers · 2026-05-29 缓存

Function2Scene 通过解析用户需求并应用设计约束,结合几何分析、LLM推理和VLM评估的迭代优化循环,从功能描述生成3D室内布局,在满足功能需求方面优于基线方法。

0 人收藏 0 人点赞
#vlm

(又一个)KV 缓存计算器 - kvanta.vcerny.cz

Reddit r/LocalLLaMA · 2026-05-25

一款名为 KVANTA 的新开源 KV 缓存计算器工具已发布,支持来自 Hugging Face 的任何 LLM/VLM。

0 人收藏 0 人点赞
#vlm

@HappyyPablo: 开源 Marlin-2B,一个小型视觉语言模型,用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

X AI KOLs Timeline · 2026-05-19 缓存

开源 Marlin-2B,一个用于从视频中提取结构化信息的小型VLM,经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型,与 Gemini-2.5-flash 竞争。

1 人收藏 1 人点赞
#vlm

你让本地模型自主完成了哪些非编程任务?

Reddit r/LocalLLaMA · 2026-05-19

作者讨论了构建一个小型VLM用于桌面GUI自动化,以在没有API的应用之间移动数据,并表达了对于本地模型在非编程自主用例方面的兴趣。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈