在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers 2026/05/05 00:00 论文

摘要

本文介绍了 JoyAI-Image，这是一种统一的多模态基础模型，通过整合空间增强的多模态大语言模型（MLLM）与多模态扩散 Transformer（MMDiT），在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

我们提出了 JoyAI-Image，这是一种用于视觉理解、文生图生成以及指令引导图像编辑的统一多模态基础模型。JoyAI-Image 将空间增强的多模态大语言模型（MLLM）与多模态扩散 Transformer（MMDiT）相结合，使得感知与生成能够通过共享的多模态接口进行交互。围绕这一架构，我们构建了一套可扩展的训练方案，结合了统一指令微调、长文本渲染监督、空间定位数据以及通用和空间编辑信号。该设计赋予模型广泛的多模态能力，同时加强了基于几何的推理能力和可控的视觉合成能力。在涵盖理解、生成、长文本渲染和编辑的各项基准测试中，实验表明 JoyAI-Image 取得了最先进的或极具竞争力的性能。更重要的是，增强的理解能力、可控的空间编辑以及新颖视角辅助的推理之间形成的双向循环，使得模型能够超越一般的视觉能力，迈向更强的空间智能。这些结果表明，在视觉-语言-动作系统和世界模型等下游应用中，统一视觉模型的发展前景广阔。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:08

论文页面 - 唤醒统一多模态理解与生成中的空间智能

来源: https://huggingface.co/papers/2605.04128 作者:

摘要

JoyAI-Image 将空间增强的 MLLM 与 MMDiT 相结合，以实现统一的视觉理解、文生图生成和指令引导的图像编辑，并具备增强的空间智能。

我们提出了 JoyAI-Image，这是一个用于视觉理解、文生图生成和指令引导图像编辑的统一多模态基础模型。JoyAI-Image 将空间增强的多模态大语言模型 (Multimodal Large Language Model, MLLM) 与多模态扩散 Transformer (Multimodal Diffusion Transformer, MMDiT) 耦合，允许感知和生成通过共享的多模态接口进行交互。围绕这一架构，我们构建了一个可扩展的训练方案，结合了统一指令微调 (unified instruction tuning)、长文本渲染监督 (long-text rendering supervision)、空间接地数据 (spatially grounded data) 以及通用和空间编辑信号。这种设计赋予了模型广泛的多模态能力，同时增强了基于几何的推理能力和可控的视觉合成 (controllable visual synthesis)。在理解、生成、长文本渲染和编辑基准上的实验表明，JoyAI-Image 达到了最先进或极具竞争力的性能。更重要的是，增强理解、可控空间编辑和新视角辅助推理之间的双向循环 (bidirectional loop) 使模型能够超越一般的视觉能力，走向更强的空间智能 (spatial intelligence)。这些结果表明，统一视觉模型在下游应用（如视觉-语言-动作系统 (vision-language-action systems) 和世界模型 (world models)）中具有广阔的前景。

查看 arXiv 页面 (https://arxiv.org/abs/2605.04128)查看 PDF (https://arxiv.org/pdf/2605.04128)GitHub2.11k (https://github.com/jd-opensource/JoyAI-Image)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.04128)

在您的 agent 中获取此论文:

hf papers read 2605\.04128

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

jdopensource/JoyAI-Image-Edit Image-to-Image• 更新于1天前 • 6.02k • 119 (https://huggingface.co/jdopensource/JoyAI-Image-Edit)

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.04128 以从本页面链接。

在统一的多模态理解与生成中唤醒空间智能

论文页面 - 唤醒统一多模态理解与生成中的空间智能

摘要

引用此论文的模型1

jdopensource/JoyAI-Image-Edit Image-to-Image• 更新于1天前 • 6.02k • 119 (https://huggingface.co/jdopensource/JoyAI-Image-Edit)

引用此论文的数据集0

引用此论文的应用空间3

包含此论文的集合1

相似文章

MMCORE：多模态连接与表征对齐的潜在嵌入

人工神经网络中的多模态神经元

Mind's Eye：面向多模态大模型的视觉抽象、变换与组合基准

UniVidX：基于扩散先验的多功能视频生成统一多模态框架

用图像思考

提交意见反馈