Ideogram 4 开源了!(在DesignArena上排名第一)
摘要
Ideogram 4 是一款开源的文本到图像模型,现已发布,具备最先进的性能、结构化 JSON 提示以及多语言文本渲染功能。
查看缓存全文
缓存时间: 2026/06/03 17:45
ideogram-ai/ideogram-4-fp8 · Hugging Face
来源:https://huggingface.co/ideogram-ai/ideogram-4-fp8
Ideogram (https://ideogram.ai/)
Ideogram 4:处于设计前沿的开源图像模型
博客文章 (https://ideogram.ai/blog/ideogram-4.0/) · 代码 (https://github.com/ideogram-oss/ideogram4) · 模型 (https://huggingface.co/collections/ideogram-ai/ideogram-4) · API (https://developer.ideogram.ai/) · 官方网站 (https://ideogram.ai/)
一个展示 Ideogram 4 示例的拼贴画,涵盖照片级真实感、插画、字体排印和海报设计
Ideogram 4 是 Ideogram (https://ideogram.ai/) 首个开源的文本到图像模型。它是一个从头训练的最先进基础模型,并非任何现有模型的微调版本。它引入了一种新的结构化 JSON 提示接口,具备一流的 multilingual 文本渲染、深层语言理解、明确的边界框布局和调色板控制,并且原生支持 2k 分辨率图像。体验该模型最简单的方式是在线访问 ideogram.ai (https://ideogram.ai/)。
我们相信开放推动创新,并邀请研究社区与我们一起在视觉智能的前沿进行创新。
目录
新闻
- [2026-06-03] Ideogram 4 发布! 推理代码和权重现已公开,我们的 技术博客文章 已上线。请参阅 快速开始 部分生成您的第一张图像,或在线访问 ideogram.ai 试用该模型。
模型动物园
我们计划在未来支持更多量化格式。
| 仓库 | 描述 |
|---|---|
| ideogram-ai/ideogram-4-fp8 | FP8 量化 |
| ideogram-ai/ideogram-4 | 完整精度(BF16) |
性能
我们在第三方竞技场和基准测试、标准开源基准测试以及我们内部的人类偏好基准测试中对 Ideogram 4 进行了评估。在所有这些测试中,Ideogram 4 是迄今为止最优秀的开源权重图像模型,并且处于设计的前沿。
设计竞技场
设计竞技场 是一个专注于设计导向生成的第三方图像 Elo 排行榜。在总排行榜上,Ideogram 4 是排名最高的开源权重模型,仅次于专有的 GPT 和 Gemini 模型:
设计竞技场总体图像 Elo 排行榜,Ideogram 4.0 是排名最高的开源权重模型
仅筛选开源权重模型,Ideogram 4 以压倒性优势领先,远远超过次优的开源模型:
设计竞技场开源权重图像 Elo 排行榜,Ideogram 4.0 遥遥领先于所有其他开源模型
ContraLabs
ContraLabs 进行了一项盲测字体排印评估,由来自 Contra 顶尖人才的十位专业设计师进行评判。Ideogram 4 在第一名胜率上领先,总体上有 47.9% 的几率被评为四种模型中最佳——远超 Gemini 3.1 Flash Image Preview (Nano Banana 2) 的 30.0%、FLUX.2 [max] 的 15.5% 和 Grok Imagine 1.0 的 15.0%:
ContraLabs 字体排印第一名胜率,Ideogram v4 领先
在实际可用性方面也同样获胜:当被问到“你会将此用于真实客户工作吗?”时,同样的设计师给 Ideogram 4 打了最高分 3.55 / 5——显著高于 Nano Banana 2 (2.84)、Grok Imagine 1.0 (2.61) 和 FLUX.2 [max] (2.49):
ContraLabs “你会将此用于真实客户工作吗?”评分,Ideogram v4 领先
LMArena
在 LMArena,一个衡量通用文本到图像用例的第三方文本到图像排行榜上,Ideogram 是排名最高的开源权重实验室,并且是整体排名前五的图像生成实验室——仅被拥有更大预算和资源的大型公司超越:
LMArena 文本到图像实验室排行榜,显示 Ideogram
Ideogram 内部评估
在我们专注于平面设计和摄影的内部人类偏好基准测试中,我们让熟悉专业设计工作的平面设计师进行盲测。Bradley-Terry 评分将 Ideogram 4 列为总体第二——仅次于 GPT Image 2 medium——并且是排名最高的开源权重模型:
Ideogram 内部设计排行榜,显示 Ideogram 4.0
开源基准测试
在衡量核心能力的标准开源基准测试上——布局控制 (7Bench)、空间推理和物体保真度 (SpatialGenEval)、文本渲染 (X-Omni OCR) 以及提示对齐 (Prism)——Ideogram 4 在每个方面都缩小了与领先闭源模型之间的差距。在布局控制 (7Bench) 上,它显著优于所有闭源模型:
五轴能力雷达图,比较 Ideogram 4.0 与领先闭源模型在布局控制、空间推理、物体保真度、提示对齐和文本渲染方面的表现
在 9.3B 参数下,Ideogram 4 在我们基准测试的所有开源权重发布中提供了最佳的文本渲染——领先于更大规模的模型,如 Qwen-Image (20B)、FLUX.2 [dev] (32B) 和 HunyuanImage 3.0 (80B MoE):
参数效率散点图,显示 Ideogram 4.0 以 9.3B 参数在所有其他开源权重模型中文本渲染领先
快速开始
安装
推理代码位于 ideogram4 (https://github.com/ideogram-oss/ideogram4) GitHub 仓库中。克隆它,然后从仓库根目录执行:
pip install .
如果您打算修改代码,请改为以可编辑模式安装,这样 src/ideogram4/ 下的更改无需重新安装即可生效:
pip install -e .
命令行界面 (CLI)
普通的 --prompt 通过一个“魔法提示”LLM 重写为模型期望的结构化 JSON 字幕。默认情况下,这使用 Ideogram 托管的魔法提示 API,它是 免费的,并在服务器端进行扩展(无需本地模型或系统提示)。它读取 IDEOGRAM_API_KEY——前往 developer.ideogram.ai 获取密钥:
python run_inference.py \
--prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
--output out.png \
--quantization "nf4" \
--magic-prompt-key "$IDEOGRAM_API_KEY"
您也可以通过自己的 LLM 提供商运行扩展——我们的一个魔法提示系统提示是 开源的。详情请参阅 提示指南。
为了获得最高质量的图像,请设置 --height 2048 --width 2048 和 --sampler-preset V4_QUALITY_48。
使用 Hive 进行安全筛选
提示和输出安全筛选通过 Hive 执行。注册并创建一个文本审核密钥和一个视觉内容审核密钥,然后将它们导出为 HIVE_TEXT_MODERATION_KEY 和 HIVE_VISUAL_MODERATION_KEY(或通过 --hive-text-key / --hive-visual-key 传递)。
python run_inference.py \
--prompt "an isometric illustration of a tiny city floating in the clouds" \
--output out.png \
--quantization "nf4" \
--magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
--hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
--hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"
关于采样器预设、参数参考和优化技巧,请参阅 docs/inference.md。
模型总结
Ideogram 4 是一个 完全从头训练的基础模型,不是任何现有检查点的微调或蒸馏版本。它是一个基于 完全单流 Diffusion Transformer (DiT) 架构的流匹配文本到图像模型。
架构:
- 完全单流 DiT。 文本和图像令牌被连接成一个统一的序列,并通过相同的 34 层 transformer 处理,没有单独的文本或图像分支。这实现了每一层的深层跨模态交互。
- 视觉语言模型作为文本编码器。 与 CLIP 或 T5 等纯文本编码器不同,Ideogram 4 使用 Qwen3-VL-8B-Instruct,一个完整的视觉语言模型,提供了对视觉概念更丰富的理解。隐藏状态从 13 个中间层 提取并连接,为模型提供从表面令牌信息到深层组合理解的多尺度语义特征。
- 双分支无分类器引导。 条件(正面)和无条件(负面)分支可以独立优化,从而实现对提示遵循度和图像质量的单独控制。
- 灵活的分辨率。 原生支持从 256 到 2048(16 的倍数)的任何分辨率,宽高比高达 6:1。一个模型即可处理从方形缩略图到超宽横幅的所有内容,噪声调度会根据分辨率自动调整。
关键能力:
- 极致的可控性。 Ideogram 4 在结构化 JSON 字幕上训练,使用户能够通过单个提示获得对构图、风格、光照、调色板、字体排印和空间布局前所未有的控制。
- 最先进的文本渲染。 Ideogram 4 提供了一流的图像内文本生成(标识、标志、标题、水印、多行文本),并直接从提示中获得高保真度。
- 空间布局控制。 提示中的边界框坐标允许明确放置主体、文本元素和背景区域。
- 调色板条件控制。 在提示中指定十六进制颜色,以引导图像的主导配色方案。
关于完整的架构细节,请参阅 docs/model_architecture.md。关于管道组件如何配合的演练,请参阅 docs/pipeline.md。
提示指南
Ideogram 4 专门在 结构化 JSON 字幕 上训练。虽然普通文本提示也能工作,但通过提供遵循我们的字幕模式的 JSON 对象,您将获得最佳结果。
关键点:
- 使用 JSON 提示 以获得最大可控性——模型在 JSON 上训练,原生理解其结构。
- 调色板条件控制——在风格描述中指定一个
colour_palette数组(十六进制颜色),以引导图像的配色方案。 - 宽高比灵活性——Ideogram 4 支持广泛的宽高比(任何每边从 256 到 2048 的 16 倍数的分辨率)。这是实际使用中的一个关键优势:肖像、风景、横幅、手机壁纸、社交媒体格式等。
- 边界框布局——在提示中指定
bbox坐标,以明确放置主体、文本元素和背景区域。 - 构图控制——使用带有边界框和逐元素描述的
compositional_deconstruction实现精确的空间布局。
为什么只使用 JSON 训练? 我们专门使用 JSON 训练,这样训练和推理共享一个单一的、通用的提示格式。训练字幕本身是故意 极其详细 的:每个 JSON 详尽地描述了图像中的所有内容,以最大化训练效率。每个字幕固定的文本-图像关系越多,模型从单个训练对中提取的有监督信号就越具体,而不是必须在许多稀疏标注的样本中推断这些关系。
为什么在推理时使用 JSON? 因为模型在明确命名每个物体的字幕上训练,确保每个请求的物体都被渲染的最可靠方法是模仿这种模式。普通文本提示仍然有效,但效果不会那么好,因为模型只在结构化 JSON 字幕上训练过。
不想手动编写 JSON? 这就是 魔法提示 的作用:它使用一个 LLM 在生成之前将普通文本提示扩展成一个完整的结构化字幕,这样您就能从一个随意的提示中获得 JSON 质量的结果。它在 run_inference.py 中默认运行(请参阅 命令行界面 部分)。
请参阅 docs/prompting.md 获取完整指南。
文档
| 文档 | 描述 |
|---|---|
| docs/prompting.md | 如何编写 JSON 提示、调色板条件控制、宽高比 |
| docs/inference.md | 采样器预设、参数参考、分辨率、优化技巧 |
| docs/model_architecture.md | 架构图、DiT 规格、组件细节 |
| docs/pipeline.md | 概念性管道演练——所有组件如何配合 |
| docs/development.md | 开发环境设置、pre-commit 钩子、贡献指南 |
| docs/safety.md | 预训练、后训练和推理时的安全缓解措施;如何报告违规 |
引用
如果您发现提供的代码或模型对您的研究有用,请考虑引用它们:
@misc{ideogram-4-2026,
author={Ideogram AI},
title={{Ideogram 4}},
year={2026},
howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},
}
我们正在招聘!
我们正在寻找 研究科学家 和 研究工程师,致力于下一代生成模型及其之上的产品。感兴趣的候选人请通过 https://jobs.ashbyhq.com/ideogram 申请。
相似文章
Ideogram 4 (GitHub 仓库)
Ideogram 4 是一个从零开始训练的开放权重的文生图模型,支持结构化 JSON 提示、业界最佳的多语言文本渲染、边界框布局控制、调色板控制以及原生 2K 分辨率输出。
ideogram-ai/ideogram-4-nf4
Ideogram 发布了 Ideogram 4,这是他们首个从头训练的开放权重文本生成图像模型,具备业界领先的多语言文字渲染能力、JSON 结构化提示词、边界框布局控制以及原生 2K 分辨率输出。NF4 量化版本已在 Hugging Face 上发布,该模型被认为是目前最优秀的开放权重图像模型,可与专有前沿模型相媲美。
Ideogram 4.0
Ideogram 4.0 作为一个具有布局控制的开放权重模型发布,用于生成设计就绪的图像。
@ideogram_ai: 推出 Ideogram 4.0:全球最优秀的开源图像模型。构思它。创造它。拥有它。下载权重,微调...
Ideogram 4.0 作为最优秀的开源图像模型发布,可下载权重、微调,并适用于所有 Ideogram 计划及 API。
Comfy-Org/Ideogram-4
专为ComfyUI重新打包的Ideogram-4模型,包含fp8缩放扩散模型、Qwen3VL文本编码器和FLUX VAE。