temporal-consistency

#temporal-consistency

SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

Hugging Face Daily Papers ↗ · 2026-05-28 Cached

SANA-Streaming enables real-time high-resolution video-to-video editing on consumer GPUs using a hybrid diffusion transformer architecture, cycle-reverse regularization, and efficient system co-design, achieving 24 FPS at 1280x704 resolution on a single RTX 5090.

0 favorites 0 likes

#temporal-consistency

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

Hugging Face Daily Papers ↗ · 2026-05-21 Cached

LatentOmni proposes a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states, outperforming explicit text-based chain-of-thought methods in audio-visual reasoning tasks.

0 favorites 0 likes

#temporal-consistency

FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

Hugging Face Daily Papers ↗ · 2026-05-20 Cached

A novel inference-time method for long video generation using overlapping sliding windows with Tweedie matching and stochastic early-phase sampling to improve temporal consistency and visual quality without additional training.

0 favorites 0 likes

#temporal-consistency

Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

Hugging Face Daily Papers ↗ · 2026-05-18 Cached

MIGA is a train-free method for generating consistent long videos by reducing the training-inference gap and enhancing temporal consistency through dual consistency mechanisms.

0 favorites 0 likes

#temporal-consistency

Stream-T1: Test-Time Scaling for Streaming Video Generation

Hugging Face Daily Papers ↗ · 2026-05-06 Cached

Stream-T1 is a proposed framework for test-time scaling in streaming video generation, improving temporal consistency and quality through mechanisms like noise propagation and reward pruning. The paper addresses the high computational costs of existing diffusion-based methods by leveraging chunk-level synthesis.

0 favorites 0 likes

#temporal-consistency

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Hugging Face Daily Papers ↗ · 2026-04-21 Cached

ReImagine introduces an image-first approach to controllable high-quality human video generation, combining SMPL-X motion guidance with video diffusion models to decouple appearance from temporal consistency.

0 favorites 0 likes

temporal-consistency

SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

Stream-T1: Test-Time Scaling for Streaming Video Generation

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Submit Feedback