标签
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
Kwai-Keye 发布了 Keye-VL-2.0-30B-A3B,这是一款 30B 级别的视觉语言模型,具备先进的视频理解、稀疏注意力机制和智能体能力,在多项基准测试中达到顶尖水平。
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。
DealignAI 发布了 Qwen3.6-27B 和 35B 模型的 CRACK-abliterated 以及 MXFP4/MXFP8 量化版本,保留了 MTP,可在 Apple Silicon 上实现更快的推测解码。
Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型,每个token有11B活跃参数,支持256k上下文和三种推理级别,专为高吞吐量的代理工作流设计。
本文提出了一个地球观测中组合图像检索的统一基准,评估了视觉-语言骨干网络,并引入了一个以变化为中心的灾害监测数据集(xView2-CIR),强调了与基于属性检索相比的独特挑战。
SWIM是一种新颖的训练策略,仅使用文本提示即可对齐视觉和语言表征以实现细粒度对象理解,并在训练期间利用掩码监督来改善跨模态注意力。该方法引入了NL-Refer数据集,并在细粒度对象理解基准测试中取得了优于基于视觉提示的方法的性能。
介绍了语义生成微调(SGT),一种利用图像分割作为生成代理来对齐统一多模态模型中的视觉理解和生成任务的范式,从而提升理解能力和生成保真度。
OpenBMB releases MiniCPM-V 4.6, a 1.3B-parameter multimodal LLM with 262k context and significantly reduced visual encoding FLOPs, achieving strong benchmark performance and broad inference framework support.
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
本文对多模态物理评估流程进行了审计,揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集(PhysCorp-A、PhysR1Corp、PhysOlym-A)和一个训练配方(Physics-R1),显著提高了在保留的奥赛问题上的性能。
介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。
Ovis2.6-80B-A3B 是 AIDC-AI 最新发布的多模态大语言模型,采用混合专家(Mixture-of-Experts)架构,总参数达 80B,但在推理时仅激活 3B 参数。该模型具备增强的长上下文处理能力、高分辨率理解能力以及主动视觉推理能力。
Alibaba AIDC 团队已发布 Ovis2.6-80B-A3B,这是一款遵循 Apache 2.0 许可的混合专家(MoE)多模态大语言模型。该模型具备 80B 总参数量与 3B 激活参数,支持 64K 上下文长度,并原生支持 2880×2880 图像分辨率以及链式思考(CoT)视觉推理。
OpenBMB 发布了 MiniCPM-V 4.6,一个 1.3B 参数的多模态模型,通过高分辨率视觉处理和高效压缩技术,在消费级硬件和手机上实现快速推理,性能超过同类大模型,且全面开源支持多种推理和量化框架。
本文介绍了AI CFD Scientist,一个用于计算流体动力学的开源AI代理,它利用视觉语言验证和代码修改自主发现物理修正,在CFD任务上优于通用AI科学家。
本文介绍了 SenseNova-U1,这是一种统一的多模态架构,整合了理解与生成任务。我们发布了两个变体(8B 和 30B),在感知能力和图像合成方面均表现出竞争力的性能。
SleepWalk 是一个三层基准,用于评估视觉语言模型从文本指令和视觉观察中预测3D环境中空间连贯轨迹的能力,揭示了在遮挡和多步指令下接地空间推理的系统性失败。
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。
NuExtract3 是一个 4B 参数规模的视觉-语言推理模型,用于文档理解,支持结构化提取和图像到 Markdown 的转换。