标签
本文介绍了REVEAL++,一种用于视觉-语言对比学习的可微分表型分组方法,应用于视网膜眼底图像和临床风险叙述,以预测阿尔茨海默病风险,其性能优于离散分组基线方法。
研究人员推出了T-Rex,这是一个集成了视觉、语言和触觉感知的框架,使机器人能够实时响应物理接触,而非仅依赖视觉。
本文研究了将大语言模型适配到3D CT报告生成的参数高效策略,提出了RAD3D-Prefix,一个轻量级的诊断先验条件框架,该框架保持LLM冻结,仅需极少的可训练参数。结果表明,冻结更大的LLM(约10亿参数以上)并仅训练轻量级投影层,能够在性能、泛化能力和计算效率之间实现更优的权衡。
本文介绍了SR-REAL,一个统一的空间视觉语言模型框架,通过强化学习结合了语言推理和三维几何推理,使得模型能够在多种任务中实现稳健的多步空间推理。
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
OpenMedQ 是一个完全开放的医学视觉语言模型,在 14 个数据集(约 335 万样本)上进行预训练,在医学 VQA 和分类基准上取得了最先进的结果。
本文介绍了JoyAI-VL-Interaction,一个开源8B规模的视觉-语言模型,可实时持续运行,自主决定何时响应或委派。它包含一个完整的可部署系统和一个训练配方,在人类评估中优于Doubao和Gemini。
本文提出了多模态多维度标量化过程奖励建模(MMS-PRM),该方法在多模态推理中强制最差维度的鲁棒性,以防止视觉幻觉等失败被强大的文本逻辑掩盖。
Embodied-R1.5 是一个统一的具身基础模型,通过多任务平衡强化学习在 24 个具身视觉-语言基准测试中的 16 个上取得了最先进性能。它引入了一个规划器-接地器-校正器闭环框架用于长视界任务,并且已开源以促进未来研究。
ARM提出了一种统一的基于离散语义标记化和强化学习优化的自回归框架,用于图像理解、生成与编辑,并展示了跨任务协同效果。
AsyncWebRL提出了一种异步多步强化学习系统,用于视觉语言Web代理,通过用常数替换每条轨迹的归一化项以减少轨迹长度低效问题,实现了高达2.9倍的训练加速,并在WebGym上取得了新的最优结果。
Liquid AI发布了LFM2.5-VL-1.6B-Extract和LFM2.5-VL-450M-Extract,这些视觉语言模型能从图像和字段列表中输出结构化JSON。模型为开放权重,提供两种规格。
Struct-Searcher 引入了一种基于信念修正理论的结构化主体工作流,用于多模态深度信息获取,相较于现有的视觉语言模型和深度研究智能体,实现了显著的准确率提升。
本文介绍了KODA(Kernel Optimization for Discrepancy Analysis,差异分析核优化),一种基于核的框架,用于比较和对齐视觉-语言模型表示,通过识别在CLIP、SigLIP和BLIP等模型中聚类方式不同的样本子集。该方法使用对比嵌入聚类和随机低维近似,能够扩展到大型数据集,同时提供表示之间可解释的结构差异。
本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。
本文提出了细粒度片段检索(FFR)这一新任务,旨在长对话中定位语义连贯的多模态片段(文本与图像)。作者提出了基于生成的检索模型 F2RVLM(通过强化学习训练)和两阶段检索系统 FFRS,并构建了新的评测数据集 MLDR。
研究人员推出 Curation-Bench,一个用于评估通用编程智能体能否在 AI 开发中自动完成迭代数据整理循环的基准测试。结果表明,智能体可在十次迭代内达到强基线水平,但可靠的数据研究需要有脚手架支撑的方法适配,而非仅依赖开放式提示。
ToolGate 是一个轻量级的外部控制器,能够预测在视觉语言代理中是否执行或跳过感知工具调用,从而将令牌成本降至基线的64%-69%,同时保持跨域设置下的准确性。
MapAgent 是一个工业级自主框架,融合视觉语言处理与约束感知推理,能够自动生成符合规范的车道级地图,已在百度地图中为超过360个城市实现了95%以上的自动化。