标签
ToolGate 是一个轻量级的外部控制器,能够预测在视觉语言代理中是否执行或跳过感知工具调用,从而将令牌成本降至基线的64%-69%,同时保持跨域设置下的准确性。
MapAgent 是一个工业级自主框架,融合视觉语言处理与约束感知推理,能够自动生成符合规范的车道级地图,已在百度地图中为超过360个城市实现了95%以上的自动化。
演示显示,Qwen3.6 35B A3B 结合 NVIDIA 的 LocateAnything-3B 作为视觉工具,能够通过检测字段位置准确填写纸质表格,证明小型模型可以通过协作完成单个大模型无法胜任的任务。
Qwen3.7-Plus 是一个多模态智能体模型,统一了视觉与语言,实现图形界面与命令行界面的无缝交互,现可通过阿里云模型服务平台使用。
本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示,使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。
介绍了FAM-Bench,这是一个多模态基准,包含2500个经专家验证的实例,涵盖13种与饮食相关的健康状况,旨在评估AI模型评估菜肴对特定健康状况的适宜性的能力,超越了基本的食物识别,转向条件感知推理。
PlatonicNav 提出了一种免训练的具体化导航框架,该框架仅使用视觉语义地图和盲匹配来锚定语言目标,无需显式的跨模态训练即可实现跨任务和跨形态的泛化。
精选的5月25-31日顶级AI论文综述,涵盖多智能体世界建模、视觉-语言-动作模型、智能体技能优化和对齐框架。
ChartArena是一个全面的双语图表解析基准,覆盖八个图表系列和三种视觉场景(数字、打印、手绘),使用人机协同标注流程和格式无关评估。对26个多模态大语言模型的评估显示,虽然专有模型整体领先,但开源模型正在追赶,而图示结构和手绘场景仍具挑战性。
HakushoBench是一个基于政府白皮书构建的日语图表和表格VQA基准,用于评估视觉语言模型对复杂视觉数据的理解能力。该基准对开源权重模型具有挑战性,最佳准确率仅为58.6%,与专有模型之间相差34.9个百分点。
Step 3.7 Flash,一款专注于智能体效率、编程、搜索和多模态工作流的新型 MoE 视觉语言模型,现可通过 Nous Portal 免费使用30天。
NVIDIA 的 LocateAnything 是一个重新思考边界框预测的视觉语言检测模型,现已成为 Hugging Face Space 并在该平台上排名第一。该空间模板由 @_akhaliq 创建。
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。
本文探讨了CLIP为何在概念绑定上表现不佳,表明虽然CLIP的绑定函数复杂度高,但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数,从而更好地泛化。
NVIDIA 研究团队发布了 LocateAnything,一种重新定义边界框预测的视觉语言检测模型,该模型在 HuggingFace 上排名第一。
StepFun 发布了其 198B 参数的稀疏 MoE 视觉语言模型 Step-3.7-Flash 的 GGUF 量化版本,支持本地部署,最高 256K 上下文长度和可选择的推理级别。
PARCEL提出了一种新颖的视觉语言模型架构,利用池锚重采样和条件弹性查询来提高不同视觉令牌预算下的效率和性能,优于现有的matryoshka基线。
LoMo 提出了一种数据整理方法,将单模态提示重新表述为交错的多模态序列,以改善视觉-语言模型中的跨模态表示对齐,在多个基准测试上取得了持续的性能提升。
FAST-GOAL 是一种微调方法,增强了CLIP在图像和长文本中对其全局和局部语义的能力,引入了FLISM和TSL模块以及GLIT100k数据集,在长标题数据集上取得了改进。
快手发布Keye-VL-2.0-30B-A3B,这是一款30B级多模态基础模型,首次将DSA注意力引入多模态领域,专注于长视频理解与智能体能力。