multi-modal-generation

#multi-modal-generation

MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Hugging Face Daily Papers ↗ · 5d ago Cached

MMDiff extends frozen diffusion transformers into multi-modal generative systems using lightweight decoders, achieving significant improvements in semantic segmentation and other perceptual tasks through multi-timestep feature fusion.

0 favorites 0 likes

multi-modal-generation

MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Submit Feedback