标签
CP-Agent 是一个多模态大语言模型,它利用情境感知对齐(CP-CLIP)来解释化学扰动下的细胞形态变化,从而为药物发现提供可解释且可扩展的表型筛选。
本文提出了一种用于主动移动代理的预推理感知框架(PRPF),将干预时机与辅助生成解耦,以提高效率并减少误触发。
本文介绍了WebRISE,这是一个用于评估MLLM生成的网页工件的基准,它使用交互契约图(ICGs)来评估五种输入模态下的需求诱导状态和转换。实验表明,即使是最强的模型也只能达到有限的有效性和覆盖率,其中视频输入提供了最强的交互信号。
本文提出特权未来在策略自蒸馏(PF-OPSD)方法,用于受控具体推理,结合世界模型的视觉模拟与语言模型的抽象推理,在两个新基准上提升预测准确性和鲁棒性。
MindZero 提出了一种自监督强化学习框架,用于训练多模态大语言模型,使其能够高效且鲁棒地进行在线心智推理,而无需心智状态标注,在准确性和效率上均优于基于模型的方法。
本文证明,使用沙盒化工具接口的文本+图像编码智能体在音视频基准测试中能够匹配甚至超越原生全模态模型,将全模态任务转化为检索与信息处理问题。
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
X-Stream 引入了首个多流视频理解基准,将MLLMs作为多路复用器在多个并发流中进行评估。研究表明,当前MLLMs仅能达到约50%的准确率,暴露了处理多流时的显著局限性。
pibot 现已完全本地化,采用 Parakeet 进行语音转文字(STT),Qwen3-tts 进行文字转语音(TTS),并通过 llama.cpp 使用 Qwen 3.6 作为本地多模态大语言模型,推理引擎基于 Rust/mlx-c,实现了零 Python 依赖。
本文研究了角色提示如何影响多模态大语言模型在城市感知中生成的语言,发现不同角色的描述趋于一致,而解释则随着角色属性系统性地变化。
本文提出了一种基于轻量级多模态LLM的框架,用于电力传输设备的成本效益缺陷分级,利用上下文学习和思维链生成训练数据,并对Qwen3-VL-8B进行微调,实现了最先进的性能。
本文介绍了MechVQA,一个包含3.3k高密度机械工程图纸和21k问答对的数据集,以及MechVL模型,该模型在MechVQA总分上优于现有基线7.57个百分点,推动了多模态LLM对机械图纸的理解。
本文首次进行了系统的跨语言、多模态红队研究,比较了四种前沿多模态大语言模型在美国英语和墨西哥西班牙语下的越狱漏洞,揭示了语言并不会均匀地放大漏洞,并且安全排名在不同语言中并不保持一致。
ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。
提出M-ORE,一种模态解耦的在线递归编辑器,用于多模态大语言模型的终身适应,解决跨模态冲突和编辑间干扰,且每次编辑开销恒定。
VGenST-Bench是一个基准测试,利用生成模型主动合成受控的时空推理场景,配备多智能体流水线和人工质量控制,用于评估多模态大语言模型。
FashionLens提出了一种统一的多模态大语言模型时尚图像检索框架,采用自适应校准与采样策略,在多种检索场景下实现了最先进的性能。
Bernini 提出了一种统一的视频生成与编辑框架,将多模态大语言模型用于语义规划、扩散模型用于像素渲染,通过语义接口分离和增强位置编码实现最先进性能。
本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战,提出了一个多阶段框架,整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。