mixture-of-transformers

#mixture-of-transformers

ABot-M0.5: Unified Mobility-and-Manipulation World Action Model

Hugging Face Daily Papers ↗ · yesterday Cached

ABot-M0.5 is a new World Action Model for mobile manipulation that improves performance through temporal granularity alignment, action space disentanglement, and train-test consistency, achieving state-of-the-art results on long-horizon and fine-grained manipulation benchmarks.

0 favorites 0 likes

#mixture-of-transformers

Vera: A Layered Diffusion Model for Content-Preserving Video Editing

Hugging Face Daily Papers ↗ · 2026-06-22 Cached

Vera is a layered diffusion model for video editing that preserves source content by generating edit layers and alpha mattes, using a Mixture-of-Transformers architecture.

0 favorites 0 likes

#mixture-of-transformers

Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

Hugging Face Blog ↗ · 2026-06-01 Cached

NVIDIA Cosmos 3 is an open omni-model for physical AI that unifies world generation, reasoning, and action generation into a single model, available on Hugging Face with various resources.

0 favorites 0 likes

#mixture-of-transformers

Cosmos 3: Omnimodal World Models for Physical AI

Hugging Face Daily Papers ↗ · 2026-06-01 Cached

Cosmos 3 is a family of omnimodal world models from NVIDIA that jointly processes language, image, video, audio, and action sequences using a unified mixture-of-transformers architecture, achieving state-of-the-art performance in understanding and generation tasks for Physical AI.

0 favorites 0 likes

#mixture-of-transformers

EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

Hugging Face Daily Papers ↗ · 2026-05-16 Cached

EVA01 is a unified framework that integrates 3D mesh as a native modality into multimodal language models via a Mixture-of-Transformers architecture, enabling state-of-the-art text-to-3D generation and long-context multi-turn geometric editing.

0 favorites 0 likes

#mixture-of-transformers

tencent/HY-Embodied-0.5

Hugging Face Models Trending ↗ · 2026-04-02 Cached

Tencent releases HY-Embodied-0.5, a suite of foundation models designed for embodied AI agents featuring a Mixture-of-Transformers (MoT) architecture with efficient 2B and powerful 32B variants for real-world robot control and spatial-temporal reasoning.

0 favorites 0 likes

mixture-of-transformers

ABot-M0.5: Unified Mobility-and-Manipulation World Action Model

Vera: A Layered Diffusion Model for Content-Preserving Video Editing

Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

Cosmos 3: Omnimodal World Models for Physical AI

EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

tencent/HY-Embodied-0.5

Submit Feedback