multimodal-llm

#multimodal-llm

@PKUCXK: 你可以在思考模式（通过网页/应用）中尝试以下两个提示，以获得在某些领域（如计数）更好的模型体验…

X AI KOLs Timeline ↗ · 4天前缓存

Xiaokang Chen 分享了两个提示词「Think with Grounding」和「Think with Pointing」，用于在思考模式下提升模型在计数等领域的表现。这些提示词利用边界框和点，使多模态大模型的推理过程更接近人类思维。

0 人收藏 0 人点赞

#multimodal-llm

MemGUI-Agent：一种具有主动上下文管理的端到端长周期移动GUI智能体

Hugging Face Daily Papers ↗ · 6天前缓存

MemGUI-Agent 引入了针对长周期移动GUI任务的主动上下文管理，利用上下文即动作（ConAct）来维护关键信息。它包含 MemGUI-3K 数据集，并使用一个 80 亿参数的模型在 MemGUI-Bench 和 MobileWorld 基准测试上达到了最先进的性能。

0 人收藏 0 人点赞

#multimodal-llm

StylisticBias: 少数人类视觉线索主导多模态大语言模型中的大部分社会偏见

Hugging Face Daily Papers ↗ · 6天前缓存

一个新的基准测试StylisticBias系统地评估了多模态大语言模型中的属性级社会偏见，发现时尚风格等少数视觉线索主导了大部分偏见。

0 人收藏 0 人点赞

#multimodal-llm

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

arXiv cs.CL ↗ · 2026-06-17 缓存

本文解决了多模态大语言模型在ASR中的口语遵循问题，提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果，以提高转录保真度。

0 人收藏 0 人点赞

#multimodal-llm

MODE: 面向MoE多模态大语言模型的模态分解专家级混合精度量化框架

arXiv cs.LG ↗ · 2026-06-17 缓存

本文介绍MODE，一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架，通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差，在激进量化下实现极小的性能损失。

0 人收藏 0 人点赞

#multimodal-llm

强制延迟：在多模态LLM级联中操纵路由决策

arXiv cs.AI ↗ · 2026-06-16 缓存

本文介绍了强制延迟攻击（FDA），一种对抗性图像攻击，通过操纵多模态LLM级联中的置信度分数，导致查询不必要地路由到更强（更昂贵）的模型，从而在不降低答案正确性的情况下将计算成本转移给提供商。

0 人收藏 0 人点赞

#multimodal-llm

Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索

arXiv cs.AI ↗ · 2026-06-16 缓存

Visual-Seeker 提出了一种视觉原生多模态深度搜索代理，它主动推理细粒度视觉细节并综合多模态证据，在五个具有挑战性的多模态搜索基准上实现了最先进的性能。

0 人收藏 0 人点赞

#multimodal-llm

@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配：LLM…

X AI KOLs Following ↗ · 2026-06-16 缓存

RepFusion提出了一种方法，在扩散Transformer中将预训练多模态LLM用作噪声表示编码器，用于文本到图像生成，在相似计算量下超越基线。

0 人收藏 0 人点赞

#multimodal-llm

超越标量距离：来自冻结MLLM的语义属性梯度用于视觉嵌入

Hugging Face Daily Papers ↗ · 2026-06-13 缓存

SAGA框架利用冻结的多模态大语言模型，通过分组相对策略优化为视觉编码器提供属性感知监督，在细粒度基准上将零样本图像检索性能提升3-6个百分点。

0 人收藏 0 人点赞

#multimodal-llm

面向多模态大语言模型的移动用户体验推理：任务、基准与方法

arXiv cs.AI ↗ · 2026-06-12 缓存

本文介绍了UXBench，这是一个用于评估多模态大语言模型在移动用户体验推理任务上的多模态基准，并提出了UI-UX，一种基于Qwen3-VL-4B-Thinking微调的多模态大语言模型，在该基准上取得了最先进的性能。

0 人收藏 0 人点赞

#multimodal-llm

SVoT: 基于强化学习的状态感知思维可视化空间推理

arXiv cs.AI ↗ · 2026-06-11 缓存

论文提出了SVoT，一种用于多模态大语言模型（MLLMs）中多跳空间推理的强化学习框架，该框架生成交错、可验证的中间状态和可视化，在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。

0 人收藏 0 人点赞

#multimodal-llm

使用ART微调多模态大语言模型：基于艺术强化训练

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

ART（基于艺术强化训练）通过梯度反向传播优化原始视觉输入，实现对冻结的多模态大语言模型的参数高效微调，其性能与LoRA相当，同时支持为vLLM等高吞吐引擎预编译的计算图。

0 人收藏 0 人点赞

#multimodal-llm

缓解流形偏离：面向可信MLLM解码的不确定性感知子空间矫正

arXiv cs.LG ↗ · 2026-06-10 缓存

本文介绍了MGAP，一种无需训练的解码方法，通过自适应地仅抑制语言先验中的有害部分，同时保留模型的语义流形，从而减少多模态大语言模型中的幻觉。该方法在POPE和CHAIR基准测试上优于先前的基线方法。

0 人收藏 0 人点赞

#multimodal-llm

从感知到决策：多模态大语言模型中听觉与视觉感知的信息流

arXiv cs.AI ↗ · 2026-06-10 缓存

本文研究了音频与视觉信息在音频-视觉大语言模型（AVLLMs）中的流动方式，揭示了AVLLMs根据输入配置采取顺序或并行路由，并且某些token在信息传输后可被丢弃以提高效率。

0 人收藏 0 人点赞

#multimodal-llm

基于查询的跨模态投影器增强 Mamba 多模态大语言模型

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了一种基于查询的跨模态投影器，通过交叉注意力机制对视觉标记进行压缩，以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量，并消除了手动设计二维扫描顺序的需求。

0 人收藏 0 人点赞

#multimodal-llm

多视频摘要中多模态大语言模型位置偏差的系统性评估

arXiv cs.CL ↗ · 2026-06-04 缓存

吉林大学研究人员对多模态大语言模型（MLLMs）在多视频摘要任务中的位置偏差进行了系统性评估，基于 ActivityNet 和新闻视频构建了评测基准，并采用覆盖率、方向性位置偏差（DPB）和中间-边缘差距（MEG）等指标对九个模型进行了全面评估。结果表明，位置效应因领域和模型而异，且增加视觉输入或生成预算并不能统一消除这种不平衡现象。

0 人收藏 0 人点赞

#multimodal-llm

VCIFBench：评估视频理解中的复杂指令遵循能力

arXiv cs.CL ↗ · 2026-06-04 缓存

VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准，包含 306 条带有内容、格式、风格和结构约束的测试指令，以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明，同时满足多项约束仍具挑战性，而基于该基准数据进行 DPO 训练可提升指令遵循性能。

0 人收藏 0 人点赞

#multimodal-llm

BiNSGPS：基于双向神经符号交互的几何问题求解

arXiv cs.AI ↗ · 2026-06-04 缓存

BiNSGPS 是一个框架，在多模态 LLM 顾问与符号求解器之间引入双向交互机制，用于几何问题求解。该框架允许求解器将反馈传递回顾问，以纠正错误并生成辅助假设。在 Geometry3K 和 PGPS9K 基准测试上分别取得了 90.5% 和 90.1% 的最优性能。

0 人收藏 0 人点赞

#multimodal-llm

VAMPS：视觉辅助数学问题求解基准

arXiv cs.AI ↗ · 2026-06-04 缓存

VAMPS 是一个包含 1,168 道多模态双语数学题的新基准，旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现：即便在绘图本是自然解题策略的问题上，直接分析求解的表现也出人意料地优于借助工具进行可视化求解。

0 人收藏 0 人点赞

#multimodal-llm

先想象后预测：用于视频事件预测的交错潜在视觉推理

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

介绍了Future-L1，一种交错潜在视觉推理框架，通过在潜在空间中保持视觉语义来改进视频事件预测。在FutureBench和TwiFF-Bench基准上取得了最先进的结果。

0 人收藏 0 人点赞

multimodal-llm

提交意见反馈