vision-language

#vision-language

ToolGate：面向工具增强型视觉语言代理的令牌高效预调用控制

arXiv cs.AI ↗ · 2026-06-03 缓存

ToolGate 是一个轻量级的外部控制器，能够预测在视觉语言代理中是否执行或跳过感知工具调用，从而将令牌成本降至基线的64%-69%，同时保持跨域设置下的准确性。

0 人收藏 0 人点赞

#vision-language

MapAgent：面向城市级车道级地图生成的工业级自主框架

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

MapAgent 是一个工业级自主框架，融合视觉语言处理与约束感知推理，能够自动生成符合规范的车道级地图，已在百度地图中为超过360个城市实现了95%以上的自动化。

0 人收藏 0 人点赞

#vision-language

@stevibe: Qwen3.6 35B A3B 自己无法填写纸质表格，但配上 NVIDIA 的 LocateAnything-3B——HuggingFace 上排名第一的热门模型……

X AI KOLs Timeline ↗ · 2026-06-02 缓存

演示显示，Qwen3.6 35B A3B 结合 NVIDIA 的 LocateAnything-3B 作为视觉工具，能够通过检测字段位置准确填写纸质表格，证明小型模型可以通过协作完成单个大模型无法胜任的任务。

0 人收藏 0 人点赞

#vision-language

Qwen3.7-Plus：多模态智能体 (36分钟阅读)

TLDR AI ↗ · 2026-06-02

Qwen3.7-Plus 是一个多模态智能体模型，统一了视觉与语言，实现图形界面与命令行界面的无缝交互，现可通过阿里云模型服务平台使用。

0 人收藏 0 人点赞

#vision-language

使用学习锚点和白化内积改进相对表示

arXiv cs.LG ↗ · 2026-06-01 缓存

本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示，使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。

0 人收藏 0 人点赞

#vision-language

FAM-Bench: 面向条件感知的食品即药物推理的多模态基准

arXiv cs.AI ↗ · 2026-06-01 缓存

介绍了FAM-Bench，这是一个多模态基准，包含2500个经专家验证的实例，涵盖13种与饮食相关的健康状况，旨在评估AI模型评估菜肴对特定健康状况的适宜性的能力，超越了基本的食物识别，转向条件感知推理。

0 人收藏 0 人点赞

#vision-language

PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

PlatonicNav 提出了一种免训练的具体化导航框架，该框架仅使用视觉语义地图和盲匹配来锚定语言目标，无需显式的跨模态训练即可实现跨任务和跨形态的泛化。

0 人收藏 0 人点赞

#vision-language

@HuggingPapers: 本周最佳AI论文（5月25-31日）：- Gamma-World: 超越双玩家的生成式多智能体世界建模 - SkillO…

X AI KOLs Following ↗ · 2026-05-31 缓存

精选的5月25-31日顶级AI论文综述，涵盖多智能体世界建模、视觉-语言-动作模型、智能体技能优化和对齐框架。

0 人收藏 0 人点赞

#vision-language

ChartArena：跨语言、场景和格式的图表解析基准测试

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

ChartArena是一个全面的双语图表解析基准，覆盖八个图表系列和三种视觉场景（数字、打印、手绘），使用人机协同标注流程和格式无关评估。对26个多模态大语言模型的评估显示，虽然专有模型整体领先，但开源模型正在追赶，而图示结构和手绘场景仍具挑战性。

0 人收藏 0 人点赞

#vision-language

HakushoBench：来自政府白皮书的日语图表和表格VQA基准

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

HakushoBench是一个基于政府白皮书构建的日语图表和表格VQA基准，用于评估视觉语言模型对复杂视觉数据的理解能力。该基准对开源权重模型具有挑战性，最佳准确率仅为58.6%，与专有模型之间相差34.9个百分点。

0 人收藏 0 人点赞

#vision-language

@NousResearch：Step 3.7 Flash 现可通过 Nous Portal 免费使用30天，这是一款新的 MoE 视觉语言模型，专注于智能体效率…

X AI KOLs Following ↗ · 2026-05-30 缓存

Step 3.7 Flash，一款专注于智能体效率、编程、搜索和多模态工作流的新型 MoE 视觉语言模型，现可通过 Nous Portal 免费使用30天。

0 人收藏 0 人点赞

#vision-language

@ZhidingYu: 我们刚刚为 LocateAnything 采用了一个超酷的新空间模板，由伟大的 @_akhaliq 制作。谢谢 AK！试试看…

X AI KOLs Following ↗ · 2026-05-30 缓存

NVIDIA 的 LocateAnything 是一个重新思考边界框预测的视觉语言检测模型，现已成为 Hugging Face Space 并在该平台上排名第一。该空间模板由 @_akhaliq 创建。

0 人收藏 0 人点赞

#vision-language

@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级高达400 tokens/秒

X AI KOLs Timeline ↗ · 2026-05-29 缓存

StepFun 发布了 Step-3.7-Flash，这是一个新的视觉语言 MoE 大模型，拥有 198B 参数（11B 激活），256K 上下文，推理速度高达 400 tokens/秒。

0 人收藏 0 人点赞

#vision-language

嵌入模型如何绑定概念？

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文探讨了CLIP为何在概念绑定上表现不佳，表明虽然CLIP的绑定函数复杂度高，但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数，从而更好地泛化。

0 人收藏 0 人点赞

#vision-language

@NVIDIAAI: 我们的研究团队在 #CVPR2026 发表的论文在 @HuggingFace 上排名第一。认识一下 LocateAnything：一个视觉语言检测模型……

X AI KOLs Following ↗ · 2026-05-28 缓存

NVIDIA 研究团队发布了 LocateAnything，一种重新定义边界框预测的视觉语言检测模型，该模型在 HuggingFace 上排名第一。

0 人收藏 0 人点赞

#vision-language

stepfun-ai/Step-3.7-Flash-GGUF

Hugging Face Models Trending ↗ · 2026-05-28 缓存

StepFun 发布了其 198B 参数的稀疏 MoE 视觉语言模型 Step-3.7-Flash 的 GGUF 量化版本，支持本地部署，最高 256K 上下文长度和可选择的推理级别。

0 人收藏 0 人点赞

#vision-language

PARCEL: 基于池锚重采样与条件弹性查询的高效视觉语言理解

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

PARCEL提出了一种新颖的视觉语言模型架构，利用池锚重采样和条件弹性查询来提高不同视觉令牌预算下的效率和性能，优于现有的matryoshka基线。

0 人收藏 0 人点赞

#vision-language

LoMo: 局部模态替换以实现更深层的视觉-语言融合

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

LoMo 提出了一种数据整理方法，将单模态提示重新表述为交错的多模态序列，以改善视觉-语言模型中的跨模态表示对齐，在多个基准测试上取得了持续的性能提升。

0 人收藏 0 人点赞

#vision-language

FAST-GOAL: 快速高效的全局-局部对象对齐学习

arXiv cs.AI ↗ · 2026-05-27 缓存

FAST-GOAL 是一种微调方法，增强了CLIP在图像和长文本中对其全局和局部语义的能力，引入了FLISM和TSL模块以及GLIT100k数据集，在长标题数据集上取得了改进。

0 人收藏 0 人点赞

#vision-language

Keye-VL-2.0-30B-A3B —— 首次将DSA注意力引入多模态

Reddit r/LocalLLaMA ↗ · 2026-05-26

快手发布Keye-VL-2.0-30B-A3B，这是一款30B级多模态基础模型，首次将DSA注意力引入多模态领域，专注于长视频理解与智能体能力。

0 人收藏 0 人点赞

vision-language

提交意见反馈