multimodal-llm

标签

#multimodal-llm

CP-Agent: 面向化学扰动下细胞形态轮廓分析的情境感知多模态推理

arXiv cs.AI ↗ · 2026-06-03 缓存

CP-Agent 是一个多模态大语言模型，它利用情境感知对齐（CP-CLIP）来解释化学扰动下的细胞形态变化，从而为药物发现提供可解释且可扩展的表型筛选。

0 人收藏 0 人点赞

#multimodal-llm

感知先行推理：一种高效可靠的主动移动代理的预推理感知框架

arXiv cs.AI ↗ · 2026-06-03 缓存

本文提出了一种用于主动移动代理的预推理感知框架（PRPF），将干预时机与辅助生成解耦，以提高效率并减少误触发。

0 人收藏 0 人点赞

#multimodal-llm

WebRISE: MLLM生成网页工件的需求诱导状态评估

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了WebRISE，这是一个用于评估MLLM生成的网页工件的基准，它使用交互契约图（ICGs）来评估五种输入模态下的需求诱导状态和转换。实验表明，即使是最强的模型也只能达到有限的有效性和覆盖率，其中视频输入提供了最强的交互信号。

0 人收藏 0 人点赞

#multimodal-llm

世界模型与语言模型相遇：论具体推理与抽象推理的互补性

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文提出特权未来在策略自蒸馏（PF-OPSD）方法，用于受控具体推理，结合世界模型的视觉模拟与语言模型的抽象推理，在两个新基准上提升预测准确性和鲁棒性。

0 人收藏 0 人点赞

#multimodal-llm

MindZero：零标注下的在线心智推理学习

arXiv cs.AI ↗ · 2026-06-02 缓存

MindZero 提出了一种自监督强化学习框架，用于训练多模态大语言模型，使其能够高效且鲁棒地进行在线心智推理，而无需心智状态标注，在准确性和效率上均优于基于模型的方法。

0 人收藏 0 人点赞

#multimodal-llm

沙盒化编码智能体是竞争性全模态任务求解器

arXiv cs.CL ↗ · 2026-06-02 缓存

本文证明，使用沙盒化工具接口的文本+图像编码智能体在音视频基准测试中能够匹配甚至超越原生全模态模型，将全模态任务转化为检索与信息处理问题。

0 人收藏 0 人点赞

#multimodal-llm

OVO-S-Bench：面向多模态大语言模型流式空间智能的层次化基准测试

Papers with Code Trending ↗ · 2026-06-02 缓存

OVO-S-Bench 构建了一个全面的人工标注基准测试，涵盖 348 个视频中的 1,680 道问题，用于评估多模态大语言模型的流式空间智能能力。结果显示，即便是表现最佳的模型（Gemini-3.1-Pro）也比人类专家低 27 分。该基准测试揭示了若干关键局限：以他者为中心的空间映射是主要瓶颈，而思维链推理则会放大空间错误。

0 人收藏 0 人点赞

#multimodal-llm

学习适应：基于认知感知探索的自我改进网络智能体

arXiv cs.AI ↗ · 2026-06-01 缓存

提出了SCALE框架，用于自我改进的网络智能体，采用认知感知探索，包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k，显著提升了基于MLLM的网络智能体的性能。

0 人收藏 0 人点赞

#multimodal-llm

X-Stream: 探索将MLLMs作为多流理解的多路复用器

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

X-Stream 引入了首个多流视频理解基准，将MLLMs作为多路复用器在多个并发流中进行评估。研究表明，当前MLLMs仅能达到约50%的准确率，暴露了处理多流时的显著局限性。

0 人收藏 0 人点赞

#multimodal-llm

@badlogicgames：pibot 现在完全本地运行，使用 parakeet 进行语音转文字（STT），qwen3-tts 进行文字转语音（TTS），以及 Qwen 3.6 作为本地的多模态大语言模型……

X AI KOLs Following ↗ · 2026-05-29 缓存

pibot 现已完全本地化，采用 Parakeet 进行语音转文字（STT），Qwen3-tts 进行文字转语音（TTS），并通过 llama.cpp 使用 Qwen 3.6 作为本地多模态大语言模型，推理引擎基于 Rust/mlx-c，实现了零 Python 依赖。

0 人收藏 0 人点赞

#multimodal-llm

城市感知中多模态大语言模型代理生成解释的角色效应分析

arXiv cs.CL ↗ · 2026-05-29 缓存

本文研究了角色提示如何影响多模态大语言模型在城市感知中生成的语言，发现不同角色的描述趋于一致，而解释则随着角色属性系统性地变化。

0 人收藏 0 人点赞

#multimodal-llm

轻量级多模态LLM驱动的电力传输设备经济高效的缺陷分级

arXiv cs.CL ↗ · 2026-05-29 缓存

本文提出了一种基于轻量级多模态LLM的框架，用于电力传输设备的成本效益缺陷分级，利用上下文学习和思维链生成训练数据，并对Qwen3-VL-8B进行微调，实现了最先进的性能。

0 人收藏 0 人点赞

#multimodal-llm

MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文介绍了MechVQA，一个包含3.3k高密度机械工程图纸和21k问答对的数据集，以及MechVL模型，该模型在MechVQA总分上优于现有基线7.57个百分点，推动了多模态LLM对机械图纸的理解。

0 人收藏 0 人点赞

#multimodal-llm

相同模型，不同弱点：语言和模态如何重塑前沿多模态大语言模型的越狱攻击面

arXiv cs.CL ↗ · 2026-05-25 缓存

本文首次进行了系统的跨语言、多模态红队研究，比较了四种前沿多模态大语言模型在美国英语和墨西哥西班牙语下的越狱漏洞，揭示了语言并不会均匀地放大漏洞，并且安全排名在不同语言中并不保持一致。

0 人收藏 0 人点赞

#multimodal-llm

ETCHR：编辑以澄清和利用推理

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

ETCHR是一种新颖的图像编辑方法，它将视觉推理与图像生成解耦，采用两阶段训练过程（推理模仿和推理增强）来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上，Pass@1持续提升4-5%。

0 人收藏 0 人点赞

#multimodal-llm

模态解耦的在线递归编辑

arXiv cs.LG ↗ · 2026-05-21 缓存

提出M-ORE，一种模态解耦的在线递归编辑器，用于多模态大语言模型的终身适应，解决跨模态冲突和编辑间干扰，且每次编辑开销恒定。

0 人收藏 0 人点赞

#multimodal-llm

VGenST-Bench：通过主动视频合成进行时空推理的基准测试

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

VGenST-Bench是一个基准测试，利用生成模型主动合成受控的时空推理场景，配备多智能体流水线和人工质量控制，用于评估多模态大语言模型。

0 人收藏 0 人点赞

#multimodal-llm

FashionLens：面向多样化时尚图像检索的任务自适应学习

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

FashionLens提出了一种统一的多模态大语言模型时尚图像检索框架，采用自适应校准与采样策略，在多种检索场景下实现了最先进的性能。

0 人收藏 0 人点赞

#multimodal-llm

Bernini：视频扩散的潜在语义规划

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

Bernini 提出了一种统一的视频生成与编辑框架，将多模态大语言模型用于语义规划、扩散模型用于像素渲染，通过语义接口分离和增强位置编码实现最先进性能。

0 人收藏 0 人点赞

#multimodal-llm

基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择

arXiv cs.LG ↗ · 2026-05-20

本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战，提出了一个多阶段框架，整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈