Ideogram 4 开源了！（在DesignArena上排名第一）

Reddit r/LocalLLaMA 2026/06/03 16:18 模型

摘要

Ideogram 4 是一款开源的文本到图像模型，现已发布，具备最先进的性能、结构化 JSON 提示以及多语言文本渲染功能。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/03 17:45

ideogram-ai/ideogram-4-fp8 · Hugging Face

来源：https://huggingface.co/ideogram-ai/ideogram-4-fp8

Ideogram (https://ideogram.ai/)

Ideogram 4：处于设计前沿的开源图像模型

博客文章 (https://ideogram.ai/blog/ideogram-4.0/) · 代码 (https://github.com/ideogram-oss/ideogram4) · 模型 (https://huggingface.co/collections/ideogram-ai/ideogram-4) · API (https://developer.ideogram.ai/) · 官方网站 (https://ideogram.ai/)

一个展示 Ideogram 4 示例的拼贴画，涵盖照片级真实感、插画、字体排印和海报设计

Ideogram 4 是 Ideogram (https://ideogram.ai/) 首个开源的文本到图像模型。它是一个从头训练的最先进基础模型，并非任何现有模型的微调版本。它引入了一种新的结构化 JSON 提示接口，具备一流的 multilingual 文本渲染、深层语言理解、明确的边界框布局和调色板控制，并且原生支持 2k 分辨率图像。体验该模型最简单的方式是在线访问 ideogram.ai (https://ideogram.ai/)。

我们相信开放推动创新，并邀请研究社区与我们一起在视觉智能的前沿进行创新。

新闻

[2026-06-03] Ideogram 4 发布！ 推理代码和权重现已公开，我们的技术博客文章已上线。请参阅快速开始部分生成您的第一张图像，或在线访问 ideogram.ai 试用该模型。

模型动物园

我们计划在未来支持更多量化格式。

仓库	描述
ideogram-ai/ideogram-4-fp8	FP8 量化
ideogram-ai/ideogram-4	完整精度（BF16）

性能

我们在第三方竞技场和基准测试、标准开源基准测试以及我们内部的人类偏好基准测试中对 Ideogram 4 进行了评估。在所有这些测试中，Ideogram 4 是迄今为止最优秀的开源权重图像模型，并且处于设计的前沿。

设计竞技场

设计竞技场是一个专注于设计导向生成的第三方图像 Elo 排行榜。在总排行榜上，Ideogram 4 是排名最高的开源权重模型，仅次于专有的 GPT 和 Gemini 模型：

设计竞技场总体图像 Elo 排行榜，Ideogram 4.0 是排名最高的开源权重模型

仅筛选开源权重模型，Ideogram 4 以压倒性优势领先，远远超过次优的开源模型：

设计竞技场开源权重图像 Elo 排行榜，Ideogram 4.0 遥遥领先于所有其他开源模型

ContraLabs

ContraLabs 进行了一项盲测字体排印评估，由来自 Contra 顶尖人才的十位专业设计师进行评判。Ideogram 4 在第一名胜率上领先，总体上有 47.9% 的几率被评为四种模型中最佳——远超 Gemini 3.1 Flash Image Preview (Nano Banana 2) 的 30.0%、FLUX.2 [max] 的 15.5% 和 Grok Imagine 1.0 的 15.0%：

ContraLabs 字体排印第一名胜率，Ideogram v4 领先

在实际可用性方面也同样获胜：当被问到“你会将此用于真实客户工作吗？”时，同样的设计师给 Ideogram 4 打了最高分 3.55 / 5——显著高于 Nano Banana 2 (2.84)、Grok Imagine 1.0 (2.61) 和 FLUX.2 [max] (2.49)：

ContraLabs “你会将此用于真实客户工作吗？”评分，Ideogram v4 领先

LMArena

在 LMArena，一个衡量通用文本到图像用例的第三方文本到图像排行榜上，Ideogram 是排名最高的开源权重实验室，并且是整体排名前五的图像生成实验室——仅被拥有更大预算和资源的大型公司超越：

LMArena 文本到图像实验室排行榜，显示 Ideogram

Ideogram 内部评估

在我们专注于平面设计和摄影的内部人类偏好基准测试中，我们让熟悉专业设计工作的平面设计师进行盲测。Bradley-Terry 评分将 Ideogram 4 列为总体第二——仅次于 GPT Image 2 medium——并且是排名最高的开源权重模型：

Ideogram 内部设计排行榜，显示 Ideogram 4.0

开源基准测试

在衡量核心能力的标准开源基准测试上——布局控制 (7Bench)、空间推理和物体保真度 (SpatialGenEval)、文本渲染 (X-Omni OCR) 以及提示对齐 (Prism)——Ideogram 4 在每个方面都缩小了与领先闭源模型之间的差距。在布局控制 (7Bench) 上，它显著优于所有闭源模型：

五轴能力雷达图，比较 Ideogram 4.0 与领先闭源模型在布局控制、空间推理、物体保真度、提示对齐和文本渲染方面的表现

在 9.3B 参数下，Ideogram 4 在我们基准测试的所有开源权重发布中提供了最佳的文本渲染——领先于更大规模的模型，如 Qwen-Image (20B)、FLUX.2 [dev] (32B) 和 HunyuanImage 3.0 (80B MoE)：

参数效率散点图，显示 Ideogram 4.0 以 9.3B 参数在所有其他开源权重模型中文本渲染领先

快速开始

安装

推理代码位于 ideogram4 (https://github.com/ideogram-oss/ideogram4) GitHub 仓库中。克隆它，然后从仓库根目录执行：

pip install .

如果您打算修改代码，请改为以可编辑模式安装，这样 src/ideogram4/ 下的更改无需重新安装即可生效：

pip install -e .

命令行界面 (CLI)

普通的 --prompt 通过一个“魔法提示”LLM 重写为模型期望的结构化 JSON 字幕。默认情况下，这使用 Ideogram 托管的魔法提示 API，它是 免费的，并在服务器端进行扩展（无需本地模型或系统提示）。它读取 IDEOGRAM_API_KEY——前往 developer.ideogram.ai 获取密钥：

python run_inference.py \
  --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$IDEOGRAM_API_KEY"

您也可以通过自己的 LLM 提供商运行扩展——我们的一个魔法提示系统提示是 开源的。详情请参阅提示指南。

为了获得最高质量的图像，请设置 --height 2048 --width 2048 和 --sampler-preset V4_QUALITY_48。

使用 Hive 进行安全筛选

提示和输出安全筛选通过 Hive 执行。注册并创建一个文本审核密钥和一个视觉内容审核密钥，然后将它们导出为 HIVE_TEXT_MODERATION_KEY 和 HIVE_VISUAL_MODERATION_KEY（或通过 --hive-text-key / --hive-visual-key 传递）。

python run_inference.py \
  --prompt "an isometric illustration of a tiny city floating in the clouds" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
  --hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
  --hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"

关于采样器预设、参数参考和优化技巧，请参阅 docs/inference.md。

模型总结

Ideogram 4 是一个 完全从头训练的基础模型，不是任何现有检查点的微调或蒸馏版本。它是一个基于 完全单流 Diffusion Transformer (DiT) 架构的流匹配文本到图像模型。

架构：

完全单流 DiT。 文本和图像令牌被连接成一个统一的序列，并通过相同的 34 层 transformer 处理，没有单独的文本或图像分支。这实现了每一层的深层跨模态交互。
视觉语言模型作为文本编码器。 与 CLIP 或 T5 等纯文本编码器不同，Ideogram 4 使用 Qwen3-VL-8B-Instruct，一个完整的视觉语言模型，提供了对视觉概念更丰富的理解。隐藏状态从 13 个中间层 提取并连接，为模型提供从表面令牌信息到深层组合理解的多尺度语义特征。
双分支无分类器引导。 条件（正面）和无条件（负面）分支可以独立优化，从而实现对提示遵循度和图像质量的单独控制。
灵活的分辨率。 原生支持从 256 到 2048（16 的倍数）的任何分辨率，宽高比高达 6:1。一个模型即可处理从方形缩略图到超宽横幅的所有内容，噪声调度会根据分辨率自动调整。

关键能力：

极致的可控性。 Ideogram 4 在结构化 JSON 字幕上训练，使用户能够通过单个提示获得对构图、风格、光照、调色板、字体排印和空间布局前所未有的控制。
最先进的文本渲染。 Ideogram 4 提供了一流的图像内文本生成（标识、标志、标题、水印、多行文本），并直接从提示中获得高保真度。
空间布局控制。 提示中的边界框坐标允许明确放置主体、文本元素和背景区域。
调色板条件控制。 在提示中指定十六进制颜色，以引导图像的主导配色方案。

关于完整的架构细节，请参阅 docs/model_architecture.md。关于管道组件如何配合的演练，请参阅 docs/pipeline.md。

提示指南

Ideogram 4 专门在 结构化 JSON 字幕 上训练。虽然普通文本提示也能工作，但通过提供遵循我们的字幕模式的 JSON 对象，您将获得最佳结果。

关键点：

使用 JSON 提示 以获得最大可控性——模型在 JSON 上训练，原生理解其结构。
调色板条件控制——在风格描述中指定一个 colour_palette 数组（十六进制颜色），以引导图像的配色方案。
宽高比灵活性——Ideogram 4 支持广泛的宽高比（任何每边从 256 到 2048 的 16 倍数的分辨率）。这是实际使用中的一个关键优势：肖像、风景、横幅、手机壁纸、社交媒体格式等。
边界框布局——在提示中指定 bbox 坐标，以明确放置主体、文本元素和背景区域。
构图控制——使用带有边界框和逐元素描述的 compositional_deconstruction 实现精确的空间布局。

为什么只使用 JSON 训练？ 我们专门使用 JSON 训练，这样训练和推理共享一个单一的、通用的提示格式。训练字幕本身是故意 极其详细 的：每个 JSON 详尽地描述了图像中的所有内容，以最大化训练效率。每个字幕固定的文本-图像关系越多，模型从单个训练对中提取的有监督信号就越具体，而不是必须在许多稀疏标注的样本中推断这些关系。

为什么在推理时使用 JSON？ 因为模型在明确命名每个物体的字幕上训练，确保每个请求的物体都被渲染的最可靠方法是模仿这种模式。普通文本提示仍然有效，但效果不会那么好，因为模型只在结构化 JSON 字幕上训练过。

不想手动编写 JSON？ 这就是 魔法提示 的作用：它使用一个 LLM 在生成之前将普通文本提示扩展成一个完整的结构化字幕，这样您就能从一个随意的提示中获得 JSON 质量的结果。它在 run_inference.py 中默认运行（请参阅命令行界面部分）。

请参阅 docs/prompting.md 获取完整指南。

文档

文档	描述
docs/prompting.md	如何编写 JSON 提示、调色板条件控制、宽高比
docs/inference.md	采样器预设、参数参考、分辨率、优化技巧
docs/model_architecture.md	架构图、DiT 规格、组件细节
docs/pipeline.md	概念性管道演练——所有组件如何配合
docs/development.md	开发环境设置、pre-commit 钩子、贡献指南
docs/safety.md	预训练、后训练和推理时的安全缓解措施；如何报告违规

引用

如果您发现提供的代码或模型对您的研究有用，请考虑引用它们：

@misc{ideogram-4-2026,
    author={Ideogram AI},
    title={{Ideogram 4}},
    year={2026},
    howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},
}

我们正在招聘！

我们正在寻找 研究科学家 和 研究工程师，致力于下一代生成模型及其之上的产品。感兴趣的候选人请通过 https://jobs.ashbyhq.com/ideogram 申请。

Ideogram 4 开源了！（在DesignArena上排名第一）

ideogram-ai/ideogram-4-fp8 · Hugging Face

目录

新闻

模型动物园

性能

设计竞技场

ContraLabs

LMArena

Ideogram 内部评估

开源基准测试

快速开始

安装

命令行界面 (CLI)

使用 Hive 进行安全筛选

模型总结

提示指南

文档

引用

我们正在招聘！

相似文章

Ideogram 4 (GitHub 仓库)

ideogram-ai/ideogram-4-nf4

Ideogram 4.0

@ideogram_ai: 推出 Ideogram 4.0：全球最优秀的开源图像模型。构思它。创造它。拥有它。下载权重，微调...

Comfy-Org/Ideogram-4

提交意见反馈