标签
Xiaokang Chen 分享了两个提示词「Think with Grounding」和「Think with Pointing」,用于在思考模式下提升模型在计数等领域的表现。这些提示词利用边界框和点,使多模态大模型的推理过程更接近人类思维。
MemGUI-Agent 引入了针对长周期移动GUI任务的主动上下文管理,利用上下文即动作(ConAct)来维护关键信息。它包含 MemGUI-3K 数据集,并使用一个 80 亿参数的模型在 MemGUI-Bench 和 MobileWorld 基准测试上达到了最先进的性能。
一个新的基准测试StylisticBias系统地评估了多模态大语言模型中的属性级社会偏见,发现时尚风格等少数视觉线索主导了大部分偏见。
本文解决了多模态大语言模型在ASR中的口语遵循问题,提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果,以提高转录保真度。
本文介绍MODE,一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架,通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差,在激进量化下实现极小的性能损失。
本文介绍了强制延迟攻击(FDA),一种对抗性图像攻击,通过操纵多模态LLM级联中的置信度分数,导致查询不必要地路由到更强(更昂贵)的模型,从而在不降低答案正确性的情况下将计算成本转移给提供商。
Visual-Seeker 提出了一种视觉原生多模态深度搜索代理,它主动推理细粒度视觉细节并综合多模态证据,在五个具有挑战性的多模态搜索基准上实现了最先进的性能。
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。
SAGA框架利用冻结的多模态大语言模型,通过分组相对策略优化为视觉编码器提供属性感知监督,在细粒度基准上将零样本图像检索性能提升3-6个百分点。
本文介绍了UXBench,这是一个用于评估多模态大语言模型在移动用户体验推理任务上的多模态基准,并提出了UI-UX,一种基于Qwen3-VL-4B-Thinking微调的多模态大语言模型,在该基准上取得了最先进的性能。
论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。
ART(基于艺术强化训练)通过梯度反向传播优化原始视觉输入,实现对冻结的多模态大语言模型的参数高效微调,其性能与LoRA相当,同时支持为vLLM等高吞吐引擎预编译的计算图。
本文介绍了MGAP,一种无需训练的解码方法,通过自适应地仅抑制语言先验中的有害部分,同时保留模型的语义流形,从而减少多模态大语言模型中的幻觉。该方法在POPE和CHAIR基准测试上优于先前的基线方法。
本文研究了音频与视觉信息在音频-视觉大语言模型(AVLLMs)中的流动方式,揭示了AVLLMs根据输入配置采取顺序或并行路由,并且某些token在信息传输后可被丢弃以提高效率。
本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。
吉林大学研究人员对多模态大语言模型(MLLMs)在多视频摘要任务中的位置偏差进行了系统性评估,基于 ActivityNet 和新闻视频构建了评测基准,并采用覆盖率、方向性位置偏差(DPB)和中间-边缘差距(MEG)等指标对九个模型进行了全面评估。结果表明,位置效应因领域和模型而异,且增加视觉输入或生成预算并不能统一消除这种不平衡现象。
VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。
BiNSGPS 是一个框架,在多模态 LLM 顾问与符号求解器之间引入双向交互机制,用于几何问题求解。该框架允许求解器将反馈传递回顾问,以纠正错误并生成辅助假设。在 Geometry3K 和 PGPS9K 基准测试上分别取得了 90.5% 和 90.1% 的最优性能。
VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。
介绍了Future-L1,一种交错潜在视觉推理框架,通过在潜在空间中保持视觉语义来改进视频事件预测。在FutureBench和TwiFF-Bench基准上取得了最先进的结果。