Ideogram 4 开源了!(在DesignArena上排名第一)

Reddit r/LocalLLaMA 模型

摘要

Ideogram 4 是一款开源的文本到图像模型,现已发布,具备最先进的性能、结构化 JSON 提示以及多语言文本渲染功能。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/03 17:45

ideogram-ai/ideogram-4-fp8 · Hugging Face

来源:https://huggingface.co/ideogram-ai/ideogram-4-fp8

Ideogram (https://ideogram.ai/)

Ideogram 4:处于设计前沿的开源图像模型

博客文章 (https://ideogram.ai/blog/ideogram-4.0/) · 代码 (https://github.com/ideogram-oss/ideogram4) · 模型 (https://huggingface.co/collections/ideogram-ai/ideogram-4) · API (https://developer.ideogram.ai/) · 官方网站 (https://ideogram.ai/)

一个展示 Ideogram 4 示例的拼贴画,涵盖照片级真实感、插画、字体排印和海报设计

Ideogram 4 是 Ideogram (https://ideogram.ai/) 首个开源的文本到图像模型。它是一个从头训练的最先进基础模型,并非任何现有模型的微调版本。它引入了一种新的结构化 JSON 提示接口,具备一流的 multilingual 文本渲染、深层语言理解、明确的边界框布局和调色板控制,并且原生支持 2k 分辨率图像。体验该模型最简单的方式是在线访问 ideogram.ai (https://ideogram.ai/)

我们相信开放推动创新,并邀请研究社区与我们一起在视觉智能的前沿进行创新。

目录

  1. 新闻
  2. 模型动物园
  3. 性能
  4. 快速开始
  5. 模型总结
  6. 提示指南
  7. 文档
  8. 引用

新闻

  • [2026-06-03] Ideogram 4 发布! 推理代码和权重现已公开,我们的 技术博客文章 已上线。请参阅 快速开始 部分生成您的第一张图像,或在线访问 ideogram.ai 试用该模型。

模型动物园

我们计划在未来支持更多量化格式。

仓库描述
ideogram-ai/ideogram-4-fp8FP8 量化
ideogram-ai/ideogram-4完整精度(BF16)

性能

我们在第三方竞技场和基准测试、标准开源基准测试以及我们内部的人类偏好基准测试中对 Ideogram 4 进行了评估。在所有这些测试中,Ideogram 4 是迄今为止最优秀的开源权重图像模型,并且处于设计的前沿。

设计竞技场

设计竞技场 是一个专注于设计导向生成的第三方图像 Elo 排行榜。在总排行榜上,Ideogram 4 是排名最高的开源权重模型,仅次于专有的 GPT 和 Gemini 模型:

设计竞技场总体图像 Elo 排行榜,Ideogram 4.0 是排名最高的开源权重模型

仅筛选开源权重模型,Ideogram 4 以压倒性优势领先,远远超过次优的开源模型:

设计竞技场开源权重图像 Elo 排行榜,Ideogram 4.0 遥遥领先于所有其他开源模型

ContraLabs

ContraLabs 进行了一项盲测字体排印评估,由来自 Contra 顶尖人才的十位专业设计师进行评判。Ideogram 4 在第一名胜率上领先,总体上有 47.9% 的几率被评为四种模型中最佳——远超 Gemini 3.1 Flash Image Preview (Nano Banana 2) 的 30.0%、FLUX.2 [max] 的 15.5% 和 Grok Imagine 1.0 的 15.0%:

ContraLabs 字体排印第一名胜率,Ideogram v4 领先

在实际可用性方面也同样获胜:当被问到“你会将此用于真实客户工作吗?”时,同样的设计师给 Ideogram 4 打了最高分 3.55 / 5——显著高于 Nano Banana 2 (2.84)、Grok Imagine 1.0 (2.61) 和 FLUX.2 [max] (2.49):

ContraLabs “你会将此用于真实客户工作吗?”评分,Ideogram v4 领先

LMArena

LMArena,一个衡量通用文本到图像用例的第三方文本到图像排行榜上,Ideogram 是排名最高的开源权重实验室,并且是整体排名前五的图像生成实验室——仅被拥有更大预算和资源的大型公司超越:

LMArena 文本到图像实验室排行榜,显示 Ideogram

Ideogram 内部评估

在我们专注于平面设计和摄影的内部人类偏好基准测试中,我们让熟悉专业设计工作的平面设计师进行盲测。Bradley-Terry 评分将 Ideogram 4 列为总体第二——仅次于 GPT Image 2 medium——并且是排名最高的开源权重模型:

Ideogram 内部设计排行榜,显示 Ideogram 4.0

开源基准测试

在衡量核心能力的标准开源基准测试上——布局控制 (7Bench)、空间推理和物体保真度 (SpatialGenEval)、文本渲染 (X-Omni OCR) 以及提示对齐 (Prism)——Ideogram 4 在每个方面都缩小了与领先闭源模型之间的差距。在布局控制 (7Bench) 上,它显著优于所有闭源模型:

五轴能力雷达图,比较 Ideogram 4.0 与领先闭源模型在布局控制、空间推理、物体保真度、提示对齐和文本渲染方面的表现

在 9.3B 参数下,Ideogram 4 在我们基准测试的所有开源权重发布中提供了最佳的文本渲染——领先于更大规模的模型,如 Qwen-Image (20B)、FLUX.2 [dev] (32B) 和 HunyuanImage 3.0 (80B MoE):

参数效率散点图,显示 Ideogram 4.0 以 9.3B 参数在所有其他开源权重模型中文本渲染领先

快速开始

安装

推理代码位于 ideogram4 (https://github.com/ideogram-oss/ideogram4) GitHub 仓库中。克隆它,然后从仓库根目录执行:

pip install .

如果您打算修改代码,请改为以可编辑模式安装,这样 src/ideogram4/ 下的更改无需重新安装即可生效:

pip install -e .

命令行界面 (CLI)

普通的 --prompt 通过一个“魔法提示”LLM 重写为模型期望的结构化 JSON 字幕。默认情况下,这使用 Ideogram 托管的魔法提示 API,它是 免费的,并在服务器端进行扩展(无需本地模型或系统提示)。它读取 IDEOGRAM_API_KEY——前往 developer.ideogram.ai 获取密钥:

python run_inference.py \
  --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$IDEOGRAM_API_KEY"

您也可以通过自己的 LLM 提供商运行扩展——我们的一个魔法提示系统提示是 开源的。详情请参阅 提示指南

为了获得最高质量的图像,请设置 --height 2048 --width 2048--sampler-preset V4_QUALITY_48

使用 Hive 进行安全筛选

提示和输出安全筛选通过 Hive 执行。注册并创建一个文本审核密钥和一个视觉内容审核密钥,然后将它们导出为 HIVE_TEXT_MODERATION_KEYHIVE_VISUAL_MODERATION_KEY(或通过 --hive-text-key / --hive-visual-key 传递)。

python run_inference.py \
  --prompt "an isometric illustration of a tiny city floating in the clouds" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
  --hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
  --hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"

关于采样器预设、参数参考和优化技巧,请参阅 docs/inference.md

模型总结

Ideogram 4 是一个 完全从头训练的基础模型,不是任何现有检查点的微调或蒸馏版本。它是一个基于 完全单流 Diffusion Transformer (DiT) 架构的流匹配文本到图像模型。

架构:

  • 完全单流 DiT。 文本和图像令牌被连接成一个统一的序列,并通过相同的 34 层 transformer 处理,没有单独的文本或图像分支。这实现了每一层的深层跨模态交互。
  • 视觉语言模型作为文本编码器。 与 CLIP 或 T5 等纯文本编码器不同,Ideogram 4 使用 Qwen3-VL-8B-Instruct,一个完整的视觉语言模型,提供了对视觉概念更丰富的理解。隐藏状态从 13 个中间层 提取并连接,为模型提供从表面令牌信息到深层组合理解的多尺度语义特征。
  • 双分支无分类器引导。 条件(正面)和无条件(负面)分支可以独立优化,从而实现对提示遵循度和图像质量的单独控制。
  • 灵活的分辨率。 原生支持从 256 到 2048(16 的倍数)的任何分辨率,宽高比高达 6:1。一个模型即可处理从方形缩略图到超宽横幅的所有内容,噪声调度会根据分辨率自动调整。

关键能力:

  • 极致的可控性。 Ideogram 4 在结构化 JSON 字幕上训练,使用户能够通过单个提示获得对构图、风格、光照、调色板、字体排印和空间布局前所未有的控制。
  • 最先进的文本渲染。 Ideogram 4 提供了一流的图像内文本生成(标识、标志、标题、水印、多行文本),并直接从提示中获得高保真度。
  • 空间布局控制。 提示中的边界框坐标允许明确放置主体、文本元素和背景区域。
  • 调色板条件控制。 在提示中指定十六进制颜色,以引导图像的主导配色方案。

关于完整的架构细节,请参阅 docs/model_architecture.md。关于管道组件如何配合的演练,请参阅 docs/pipeline.md

提示指南

Ideogram 4 专门在 结构化 JSON 字幕 上训练。虽然普通文本提示也能工作,但通过提供遵循我们的字幕模式的 JSON 对象,您将获得最佳结果。

关键点:

  • 使用 JSON 提示 以获得最大可控性——模型在 JSON 上训练,原生理解其结构。
  • 调色板条件控制——在风格描述中指定一个 colour_palette 数组(十六进制颜色),以引导图像的配色方案。
  • 宽高比灵活性——Ideogram 4 支持广泛的宽高比(任何每边从 256 到 2048 的 16 倍数的分辨率)。这是实际使用中的一个关键优势:肖像、风景、横幅、手机壁纸、社交媒体格式等。
  • 边界框布局——在提示中指定 bbox 坐标,以明确放置主体、文本元素和背景区域。
  • 构图控制——使用带有边界框和逐元素描述的 compositional_deconstruction 实现精确的空间布局。

为什么只使用 JSON 训练? 我们专门使用 JSON 训练,这样训练和推理共享一个单一的、通用的提示格式。训练字幕本身是故意 极其详细 的:每个 JSON 详尽地描述了图像中的所有内容,以最大化训练效率。每个字幕固定的文本-图像关系越多,模型从单个训练对中提取的有监督信号就越具体,而不是必须在许多稀疏标注的样本中推断这些关系。

为什么在推理时使用 JSON? 因为模型在明确命名每个物体的字幕上训练,确保每个请求的物体都被渲染的最可靠方法是模仿这种模式。普通文本提示仍然有效,但效果不会那么好,因为模型只在结构化 JSON 字幕上训练过。

不想手动编写 JSON? 这就是 魔法提示 的作用:它使用一个 LLM 在生成之前将普通文本提示扩展成一个完整的结构化字幕,这样您就能从一个随意的提示中获得 JSON 质量的结果。它在 run_inference.py 中默认运行(请参阅 命令行界面 部分)。

请参阅 docs/prompting.md 获取完整指南。

文档

文档描述
docs/prompting.md如何编写 JSON 提示、调色板条件控制、宽高比
docs/inference.md采样器预设、参数参考、分辨率、优化技巧
docs/model_architecture.md架构图、DiT 规格、组件细节
docs/pipeline.md概念性管道演练——所有组件如何配合
docs/development.md开发环境设置、pre-commit 钩子、贡献指南
docs/safety.md预训练、后训练和推理时的安全缓解措施;如何报告违规

引用

如果您发现提供的代码或模型对您的研究有用,请考虑引用它们:

@misc{ideogram-4-2026,
    author={Ideogram AI},
    title={{Ideogram 4}},
    year={2026},
    howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},
}

我们正在招聘!

我们正在寻找 研究科学家研究工程师,致力于下一代生成模型及其之上的产品。感兴趣的候选人请通过 https://jobs.ashbyhq.com/ideogram 申请。

相似文章

Ideogram 4 (GitHub 仓库)

TLDR AI

Ideogram 4 是一个从零开始训练的开放权重的文生图模型,支持结构化 JSON 提示、业界最佳的多语言文本渲染、边界框布局控制、调色板控制以及原生 2K 分辨率输出。

ideogram-ai/ideogram-4-nf4

Hugging Face Models Trending

Ideogram 发布了 Ideogram 4,这是他们首个从头训练的开放权重文本生成图像模型,具备业界领先的多语言文字渲染能力、JSON 结构化提示词、边界框布局控制以及原生 2K 分辨率输出。NF4 量化版本已在 Hugging Face 上发布,该模型被认为是目前最优秀的开放权重图像模型,可与专有前沿模型相媲美。

Ideogram 4.0

Product Hunt

Ideogram 4.0 作为一个具有布局控制的开放权重模型发布,用于生成设计就绪的图像。

Comfy-Org/Ideogram-4

Hugging Face Models Trending

专为ComfyUI重新打包的Ideogram-4模型,包含fp8缩放扩散模型、Qwen3VL文本编码器和FLUX VAE。