unified-model

#unified-model

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Papers with Code Trending ↗ · 2026-04-27 Cached

Tuna-2 is a unified multimodal model that achieves state-of-the-art performance by processing visual understanding and generation directly from pixel embeddings, eliminating the need for pretrained vision encoders.

0 favorites 0 likes

#unified-model

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Hugging Face Daily Papers ↗ · 2026-04-22 Cached

LLaDA2.0-Uni unifies multimodal understanding and generation within a single diffusion-based large language model architecture.

0 favorites 0 likes

unified-model

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Submit Feedback