llava

#llava

OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

arXiv cs.AI ↗ · 2026-06-12 Cached

OpenMedQ is a fully-open medical vision-language model pretrained on 14 datasets (~3.35M samples), achieving state-of-the-art results on medical VQA and classification benchmarks.

0 favorites 0 likes

#llava

LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?

Hugging Face Daily Papers ↗ · 2026-05-09 Cached

This paper introduces LLaVA-UHD v4, which improves visual encoding efficiency in multimodal large language models by using slice-based encoding and intra-ViT early compression. It reduces computational costs by over 55% while maintaining or improving performance on high-resolution image tasks.

0 favorites 0 likes

llava

OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?

Submit Feedback