在统一的多模态理解与生成中唤醒空间智能
摘要
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
查看缓存全文
缓存时间: 2026/05/08 08:08
论文页面 - 唤醒统一多模态理解与生成中的空间智能
来源: https://huggingface.co/papers/2605.04128 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
JoyAI-Image 将空间增强的 MLLM 与 MMDiT 相结合,以实现统一的视觉理解、文生图生成和指令引导的图像编辑,并具备增强的空间智能。
我们提出了 JoyAI-Image,这是一个用于视觉理解、文生图生成和指令引导图像编辑的统一多模态基础模型。JoyAI-Image 将空间增强的多模态大语言模型 (Multimodal Large Language Model, MLLM) 与多模态扩散 Transformer (Multimodal Diffusion Transformer, MMDiT) 耦合,允许感知和生成通过共享的多模态接口进行交互。围绕这一架构,我们构建了一个可扩展的训练方案,结合了统一指令微调 (unified instruction tuning)、长文本渲染监督 (long-text rendering supervision)、空间接地数据 (spatially grounded data) 以及通用和空间编辑信号。这种设计赋予了模型广泛的多模态能力,同时增强了基于几何的推理能力和可控的视觉合成 (controllable visual synthesis)。在理解、生成、长文本渲染和编辑基准上的实验表明,JoyAI-Image 达到了最先进或极具竞争力的性能。更重要的是,增强理解、可控空间编辑和新视角辅助推理之间的双向循环 (bidirectional loop) 使模型能够超越一般的视觉能力,走向更强的空间智能 (spatial intelligence)。这些结果表明,统一视觉模型在下游应用(如视觉-语言-动作系统 (vision-language-action systems) 和世界模型 (world models))中具有广阔的前景。
查看 arXiv 页面 (https://arxiv.org/abs/2605.04128)查看 PDF (https://arxiv.org/pdf/2605.04128)GitHub2.11k (https://github.com/jd-opensource/JoyAI-Image)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.04128)
在您的 agent 中获取此论文:
hf papers read 2605\.04128
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
jdopensource/JoyAI-Image-Edit Image-to-Image• 更新于1天前 • 6.02k • 119 (https://huggingface.co/jdopensource/JoyAI-Image-Edit)
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.04128 以从本页面链接。
引用此论文的应用空间3
包含此论文的集合1
相似文章
MMCORE:多模态连接与表征对齐的潜在嵌入
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。
人工神经网络中的多模态神经元
OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
用图像思考
OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。