text-to-audio

#text-to-audio

@rohanpaul_ai: AI video is moving into its real-time reaction era, with MaineCoon now leading in low-latency AI video. @catnips_ai jus…

X AI KOLs Following ↗ · yesterday Cached

MaineCoon is a 22B real-time text-to-audio-video model that achieves up to 47.5 FPS on a single H100 GPU, enabling low-cost, long-duration streaming with synchronized speech and visuals for live AI characters.

0 favorites 0 likes

#text-to-audio

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

Hugging Face Daily Papers ↗ · 2026-05-29 Cached

SwanSphere proposes a unified streaming framework for high-fidelity spatial audio generation from panoramic videos and text prompts using causal autoregressive diffusion transformers and multimodal learning strategies, achieving superior performance in both video-to-spatial and text-to-spatial audio tasks.

0 favorites 0 likes

#text-to-audio

google/magenta-realtime-2

Hugging Face Models Trending ↗ · 2026-05-28 Cached

Google DeepMind released Magenta RealTime 2, an open music generation model for on-device streaming with low-latency control via text, audio examples, and MIDI.

0 favorites 0 likes

#text-to-audio

Stable Audio 3.0 (3 minute read)

TLDR AI ↗ · 2026-05-21 Cached

Stability AI released Stable Audio 3.0, an open-weight model family for variable-length audio generation up to six minutes, with support for LoRA fine-tuning and audio inpainting, trained on fully licensed data.

0 favorites 0 likes

#text-to-audio

@multimodalart: Stable Audio 3 by @StabilityAI is just out It mainly comes with 3 open source variants: - Stable Audio 3 Medium (2B) - …

X AI KOLs Following ↗ · 2026-05-20 Cached

Stability AI released Stable Audio 3 with open source variants for music and VFX, offering fast and high-quality audio generation.

0 favorites 0 likes

#text-to-audio

Stable Audio 3

Hacker News Top ↗ · 2026-05-20 Cached

Stable Audio 3 introduces a family of fast latent diffusion models for variable-length audio generation and editing, with open-source release of small and medium model weights.

0 favorites 0 likes

#text-to-audio

WavFlow: Audio Generation in Waveform Space

Hugging Face Daily Papers ↗ · 2026-05-18 Cached

WavFlow generates high-fidelity audio directly in raw waveform space using waveform patchify and amplitude lifting, achieving competitive performance on video-to-audio and text-to-audio benchmarks without intermediate latent representations.

0 favorites 0 likes

text-to-audio

@rohanpaul_ai: AI video is moving into its real-time reaction era, with MaineCoon now leading in low-latency AI video. @catnips_ai jus…

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

google/magenta-realtime-2

Stable Audio 3.0 (3 minute read)

@multimodalart: Stable Audio 3 by @StabilityAI is just out It mainly comes with 3 open source variants: - Stable Audio 3 Medium (2B) - …

Stable Audio 3

WavFlow: Audio Generation in Waveform Space

Submit Feedback