vision-foundation-models

#vision-foundation-models

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

Hugging Face Daily Papers ↗ · 2026-06-09 Cached

IDEAL proposes an in-depth alignment framework for discrete representation autoencoding, jointly aligning quantized tokens with shallow and deep VFM features to achieve superior reconstruction and generation performance.

0 favorites 0 likes

#vision-foundation-models

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

arXiv cs.AI ↗ · 2026-06-08 Cached

Proposes an attention-guided encoder-decoder for longitudinal medical visual question answering, using a frozen DINO-based mask generator and auxiliary losses to improve consistency and interpretability, achieving strong results on the Medical-Diff-VQA benchmark.

0 favorites 0 likes

#vision-foundation-models

SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

Hugging Face Daily Papers ↗ · 2026-05-29 Cached

SOCO benchmark evaluates structured object understanding in vision models through consistent part-level annotations and keypoint descriptions, revealing gaps between language-grounded localization and visual correspondence while demonstrating strong prediction of downstream task performance.

0 favorites 0 likes

#vision-foundation-models

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Hugging Face Daily Papers ↗ · 2026-04-13 Cached

Re2Pix is a hierarchical video prediction framework that improves future video generation by first predicting semantic representations using frozen vision foundation models, then conditioning a latent diffusion model on these predictions to generate photorealistic frames. The approach addresses train-test mismatches through nested dropout and mixed supervision strategies, achieving improved temporal semantic consistency and perceptual quality on autonomous driving benchmarks.

0 favorites 0 likes

vision-foundation-models

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Submit Feedback