multimodal-llms

#multimodal-llms

通过强化学习将分布感知注入多模态大语言模型以应对深度不平衡回归

Hugging Face Daily Papers ↗ · 4天前缓存

本文介绍了一种分布感知的强化学习框架，该框架利用基于批级比较的监督信号，提升了多模态大语言模型在长尾数值回归任务中的性能。

0 人收藏 0 人点赞

#multimodal-llms

多模态大语言模型内部视觉表征的因果探针

arXiv cs.AI ↗ · 2026-05-08 缓存

本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架，揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要，并揭示了当前多模态大语言模型在感知与推理之间的脱节。

0 人收藏 0 人点赞

#multimodal-llms

BalCapRL：一种用于基于强化学习的 MLLM 图像描述生成的平衡框架

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文介绍了 BalCapRL，这是一种针对多模态大语言模型（MLLM）的平衡强化学习框架，旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡，该方法在性能上优于现有方法。

0 人收藏 0 人点赞

#multimodal-llms

多模态LLM中的乘法：基于文本、图像和音频输入的计算

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

# 论文页面 - 多模态LLM中的乘法：基于文本、图像和音频输入的计算来源：[https://huggingface.co/papers/2604.18203](https://huggingface.co/papers/2604.18203) ## 摘要多模态大语言模型在不同的表示形式与模态下执行精确的多位数乘法时，均表现出一致的计算局限性；其性能与一种新颖的算术负载指标密切相关，该指标比传统的步骤计数方法更能预测准确性

0 人收藏 0 人点赞

#multimodal-llms

Mind's Eye：面向多模态大模型的视觉抽象、变换与组合基准

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

研究者推出 Mind’s Eye，一项包含八道视觉认知任务的基准测试，显示顶级多模态大模型得分不足 50%，而人类可达 80%，暴露出视觉抽象、关系映射与心理变换方面的巨大差距。

0 人收藏 0 人点赞

#multimodal-llms

思维链削弱多模态大模型的视觉空间推理能力

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

研究表明，由于捷径学习和仅凭文本臆造视觉细节，思维链提示会损害多模态大模型在视觉空间推理方面的表现。

0 人收藏 0 人点赞

multimodal-llms

通过强化学习将分布感知注入多模态大语言模型以应对深度不平衡回归

多模态大语言模型内部视觉表征的因果探针

BalCapRL：一种用于基于强化学习的 MLLM 图像描述生成的平衡框架

多模态LLM中的乘法：基于文本、图像和音频输入的计算

Mind's Eye：面向多模态大模型的视觉抽象、变换与组合基准

思维链削弱多模态大模型的视觉空间推理能力

提交意见反馈