在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers 论文

摘要

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

我们提出了 JoyAI-Image,这是一种用于视觉理解、文生图生成以及指令引导图像编辑的统一多模态基础模型。JoyAI-Image 将空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT)相结合,使得感知与生成能够通过共享的多模态接口进行交互。围绕这一架构,我们构建了一套可扩展的训练方案,结合了统一指令微调、长文本渲染监督、空间定位数据以及通用和空间编辑信号。该设计赋予模型广泛的多模态能力,同时加强了基于几何的推理能力和可控的视觉合成能力。在涵盖理解、生成、长文本渲染和编辑的各项基准测试中,实验表明 JoyAI-Image 取得了最先进的或极具竞争力的性能。更重要的是,增强的理解能力、可控的空间编辑以及新颖视角辅助的推理之间形成的双向循环,使得模型能够超越一般的视觉能力,迈向更强的空间智能。这些结果表明,在视觉-语言-动作系统和世界模型等下游应用中,统一视觉模型的发展前景广阔。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:08

论文页面 - 唤醒统一多模态理解与生成中的空间智能

来源: https://huggingface.co/papers/2605.04128 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

JoyAI-Image 将空间增强的 MLLM 与 MMDiT 相结合,以实现统一的视觉理解、文生图生成和指令引导的图像编辑,并具备增强的空间智能。

我们提出了 JoyAI-Image,这是一个用于视觉理解、文生图生成和指令引导图像编辑的统一多模态基础模型。JoyAI-Image 将空间增强的多模态大语言模型 (Multimodal Large Language Model, MLLM) 与多模态扩散 Transformer (Multimodal Diffusion Transformer, MMDiT) 耦合,允许感知和生成通过共享的多模态接口进行交互。围绕这一架构,我们构建了一个可扩展的训练方案,结合了统一指令微调 (unified instruction tuning)、长文本渲染监督 (long-text rendering supervision)、空间接地数据 (spatially grounded data) 以及通用和空间编辑信号。这种设计赋予了模型广泛的多模态能力,同时增强了基于几何的推理能力和可控的视觉合成 (controllable visual synthesis)。在理解、生成、长文本渲染和编辑基准上的实验表明,JoyAI-Image 达到了最先进或极具竞争力的性能。更重要的是,增强理解、可控空间编辑和新视角辅助推理之间的双向循环 (bidirectional loop) 使模型能够超越一般的视觉能力,走向更强的空间智能 (spatial intelligence)。这些结果表明,统一视觉模型在下游应用(如视觉-语言-动作系统 (vision-language-action systems) 和世界模型 (world models))中具有广阔的前景。

查看 arXiv 页面 (https://arxiv.org/abs/2605.04128)查看 PDF (https://arxiv.org/pdf/2605.04128)GitHub2.11k (https://github.com/jd-opensource/JoyAI-Image)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.04128)

在您的 agent 中获取此论文:

hf papers read 2605\.04128

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

jdopensource/JoyAI-Image-Edit Image-to-Image• 更新于1天前 • 6.02k • 119 (https://huggingface.co/jdopensource/JoyAI-Image-Edit)

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.04128 以从本页面链接。

引用此论文的应用空间3

包含此论文的集合1

相似文章

人工神经网络中的多模态神经元

OpenAI Blog

OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。

用图像思考

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。