HiDream-ai/HiDream-O1-Image

Hugging Face Models Trending 模型

摘要

HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。

任务:图文生成图像 标签:transformers、safetensors、qwen3_vl、图文生成文本、图文生成图像、许可证:mit、endpoints_compatible、region:us
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/09 12:31

HiDream-ai/HiDream-O1-Image · Hugging Face

来源:https://huggingface.co/HiDream-ai/HiDream-O1-Image

HiDream-O1-Image 是一个原生统一图像生成基础模型,基于像素级统一 Transformer(UiT)构建,无需外部 VAE 或独立文本编码器。它在单一共享 token 空间中原生编码原始像素、文本和任务特定条件,支持文本生成图像、图像编辑和主体驱动个性化,分辨率最高可达 2,048 × 2,048。

HiDream-O1-Image(代号:Peanut)在 Artificial Analysis 文本生成图像竞技场中首发排名第 8,有望成为新的领先开源文本生成图像模型(2026-5-5)。

Artificial Analysis 文本生成图像竞技场 Artificial Analysis 文本生成图像竞技场 分辨率最高可达 2,048 × 2,048。

通用文本生成图像 通用文本生成图像 分辨率最高可达 2,048 × 2,048。

长文本渲染与排版 长文本渲染与排版控制 — 精准、多区域、多语言文字渲染。

主体驱动个性化 主体驱动个性化 — 在新场景中保留身份/IP。

https://huggingface.co/HiDream-ai/HiDream-O1-Image#project-updates项目动态

  • 🚀2026 年 5 月 8 日: 我们已开源 HiDream-O1-Image(8B),包括未蒸馏版和蒸馏 Dev 变体,以及推理驱动提示词智能体。

https://huggingface.co/HiDream-ai/HiDream-O1-Image#key-features核心特性

  • 🧬像素级统一 Transformer — 端到端处理原始像素的单一模型,无 VAE,无独立文本编码器。
  • 🎨一个模型,多种任务 — 单一架构支持文本生成图像、长文本渲染、指令编辑、主体驱动个性化和分镜生成。
  • 🧠推理驱动提示词智能体 — 内置“思考“智能体,在生成前解析隐含知识、排版和文字渲染需求。
  • 🖼️原生高分辨率 — 直接合成最高 2,048 × 2,048 的图像,细节清晰精细。
  • 8B 规模下的卓越效率与通用性 — 仅凭 80 亿参数,性能与更大的开源 DiT 模型及领先的闭源模型持平甚至超越。

https://huggingface.co/HiDream-ai/HiDream-O1-Image#models模型

https://huggingface.co/HiDream-ai/HiDream-O1-Image#evaluation评估

我们在五个广泛使用的评测套件上对 HiDream-O1-Image 与最先进的开源和闭源模型进行了对比测试,涵盖组合生成、密集提示对齐、人类偏好、复杂视觉文字生成和长文本渲染。每张表格中,最佳结果以粗体标注,次优结果加下划线标注。点击任意基准测试可展开或收起。

GenEval — 组合生成

模型参数量单一对象双对象计数颜色位置属性总分
Nano Banana 2.01.000.960.710.840.860.650.83
Seedream-4.01.000.920.710.930.780.680.84
GPT Image 1 [High]0.990.920.850.920.750.610.84
GPT Image 20.990.980.850.930.850.770.89
PixArt4.3B + 0.6B0.980.500.440.800.080.070.48
Show-o1.3B0.950.520.490.820.110.280.53
Emu3-Gen8B0.980.710.340.810.170.210.54
SD3-Medium5.5B + 2B0.980.740.630.670.340.360.62
JanusFlow1.3B0.970.590.450.830.530.420.63
FLUX.1 [Dev]4.8B + 12B0.980.810.740.790.220.450.66
SD3.5 Large5.5B + 8.1B0.980.890.730.830.340.470.71
Janus-Pro-7B7B0.990.890.590.900.790.660.80
Z-Image-Turbo4B + 6B1.000.950.770.890.650.680.82
FLUX.2 [Dev]24B + 32B1.000.990.790.930.730.780.87
Qwen-Image7B + 20B0.990.920.890.880.760.770.87
HiDream-O1-Image8B1.000.990.790.890.930.780.90
HiDream-O1-Image-Pro200B+1.000.990.850.940.940.790.92

DPG-Bench — 密集提示对齐

模型参数量全局实体属性关系其他总分
GPT Image 1 [High]88.8988.9489.8492.6390.9685.15
GPT Image 287.2791.9190.8591.5991.5885.98
Nano Banana 2.085.1792.5591.1690.4591.0886.90
Seedream-4.087.1792.4192.2993.3395.4888.63
SD v1.50.12B + 0.86B74.6374.2375.3973.4967.8163.18
PixArt4.3B + 0.6B74.9779.3278.6082.5776.9671.11
Lumina-Next2B + 2B82.8288.6586.4480.5381.8274.63
SDXL0.81B + 2.6B83.2782.4380.9186.7680.4174.65
Hunyuan-DiT4.8B + 1.5B84.5980.5988.0174.3686.4178.87
Emu3-Gen8B85.2186.6886.8490.2283.1580.60
DALL-E 390.9789.6188.3990.5889.8383.50
FLUX.1 [Dev]4.8B + 12B74.3590.0088.9690.8788.3383.84
SD3 Medium5.5B + 2B87.9091.0188.8380.7088.6884.08
Janus-Pro-7B7B86.9088.9089.4089.3289.4884.19
Z-Image-Turbo4B + 6B91.2989.5990.1492.1688.6884.86
HiDream-I1-Full13.5B + 17B76.4490.2289.4893.7491.8385.89
FLUX.2 [Dev]24B + 32B92.2091.3693.2893.5289.7287.57
Qwen-Image7B + 20B91.3291.5692.0294.3192.7388.32
HiDream-O1-Image8B95.1592.3293.7492.8890.2589.83
HiDream-O1-Image-Pro200B+94.9795.4292.5990.8289.5090.30

HPSv3 — 12 类别人类偏好

模型参数量全部角色艺术设计建筑动物自然风景交通工具产品植物食物科学其他
Seedream-4.09.329.839.208.839.958.999.409.589.129.269.759.119.51
Nano Banana 2.010.0110.189.189.5810.969.7110.0410.3810.3610.1410.619.149.89
GPT Image 210.2110.759.9110.1510.5910.0510.2910.1710.2610.0710.7510.0510.00
Z-Image-Turbo4B + 6B8.358.988.297.659.268.518.338.817.838.468.647.938.57
FLUX.2 [Dev]24B + 32B9.2810.239.568.809.739.439.219.448.939.239.828.679.11
Qwen-Image7B + 20B9.9410.9110.479.5610.2210.619.8710.109.159.9910.089.199.83
HiDream-O1-Image8B10.3710.5910.4410.2911.0210.3410.3710.5410.5010.3810.859.6810.09
HiDream-O1-Image-Pro200B+10.4710.6310.5110.3311.1110.0810.4510.3710.7510.2911.1310.0910.39

CVTG-2K — 复杂视觉文字生成(点击展开)

模型参数量2 区域3 区域4 区域5 区域平均NEDCLIP 分数
Nano Banana 2.00.74650.77200.80670.79800.78750.89450.7212
GPT Image 1 [High]0.87790.86590.87310.82180.85690.94780.7982
Seedream-4.00.89800.89490.90440.90150.90030.95110.8033
GPT Image 20.89040.88870.91010.90440.90030.95150.7798
TextDiffuser-20.12B + 0.9B0.53220.32550.17870.08090.23260.43530.6765
RAG-Diffusion4.8B + 12B0.43880.33160.21160.19100.26480.44980.7797
AnyText0.123B + 1.2B0.05130.17390.19480.22490.18040.46750.7432
3DIS0.81B + 2.6B0.44950.39590.38800.33030.38130.65050.7767
FLUX.1 [Dev]4.8B + 12B0.60890.55310.46610.43160.49650.68790.7401
SD3.5 Large5.5B + 8.1B0.72930.68250.65740.59400.65480.84700.7797
TextCrafter7B + 20B0.76280.76280.74060.69770.73700.86790.7868
Qwen-Image7B + 20B0.83700.83640.83130.81580.82880.91160.8017
Z-Image-Turbo4B + 6B0.88720.86620.86280.83470.85850.92810.8048
FLUX.2 [Dev]24B + 32B0.92610.88970.89950.87320.89260.94750.8104
HiDream-O1-Image8B0.90850.91590.92160.90150.91280.95610.8076
HiDream-O1-Image-Pro200B+0.91330.92210.93650.91750.92220.96280.8349

LongText-Bench — 长文本渲染,英文 & 中文(点击展开)

模型参数量LongText-Bench-ENLongText-Bench-ZH
Seedream-4.00.9360.946
GPT Image 1 [High]0.9560.619
GPT Image 20.9600.961
Nano Banana 2.00.9800.965
Janus-Pro-7B7B0.0190.006
BLIP3-o7B + 1.4B0.0210.018
Kolors 2.00.2580.329
BAGEL7B + 7B0.3730.310
OmniGen23B + 4B0.5610.059
X-Omni7B0.9000.814
HiDream-I1-Full13.5B + 17B0.5430.024
FLUX.1 [Dev]4.8B + 12B0.6070.005
Z-Image-Turbo4B + 6B0.9170.926
FLUX.2 [Dev]24B + 32B0.9630.757
Qwen-Image7B + 20B0.9430.946
HiDream-O1-Image8B0.9790.978
HiDream-O1-Image-Pro200B+0.9820.980

https://huggingface.co/HiDream-ai/HiDream-O1-Image#installation安装

  1. 克隆本仓库:

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git cd HiDream-O1-Image

  1. 安装所需依赖:

pip install -r requirements.txt

关于 flash\-attn 的说明。 我们强烈推荐安装 flash\-attn(https://github.com/Dao-AILab/flash-attention)以优化注意力计算。如果您未安装(或无法安装)flash\-attn,必须编辑 models/pipeline\.py 第 291 行,将 "use\_flash\_attn": True 改为 "use\_flash\_attn": False — 否则推理时将因无法导入内核而失败。

https://huggingface.co/HiDream-ai/HiDream-O1-Image#reasoning-driven-prompt-agent推理驱动提示词智能体

HiDream-O1-Image 内置了推理驱动提示词智能体(prompt\_agent\.py),能够显式推理排版、主体属性、物理逻辑和文字渲染细节,然后将原始用户指令改写为自洽的英文提示词。它支持两种后端 — 通过 \-\-backend 参数选择。

该智能体会输出一个包含三个字段的 JSON 对象:prompt(改写后的英文提示词)、reasoning(推理过程)和 resolved\_knowledge(已解析的知识)。将 prompt 字段输入 inference\.py,可在复杂的重推理请求上获得最佳效果。

https://huggingface.co/HiDream-ai/HiDream-O1-Image#option-a–local-backend-gemma-4-31b-it方案 A — 本地后端(Gemma-4-31B-it)

  1. 下载 Gemma 权重(需在 HuggingFace 上接受 Gemma 许可协议):

huggingface-cli download google/gemma-4-31B-it --local-dir /path/to/gemma-4-31B-it

  1. 在本地运行改写器:

python prompt_agent.py \ --backend local \ --model_id /path/to/gemma-4-31B-it \ --prompt "李白的静夜思写在古墙上"

https://huggingface.co/HiDream-ai/HiDream-O1-Image#option-b–external-openai-compatible-api方案 B — 外部 OpenAI 兼容 API

通过提供 \-\-base\_url\-\-api\_key\-\-model\_name,可使用任意 OpenAI 兼容的端点(OpenAI、Azure、vLLM、SGLang、DeepSeek 等):

python prompt_agent.py \ --backend api \ --base_url https://api.openai.com/v1 \ --api_key $OPENAI_API_KEY \ --model_name deepseek-v4-pro \ --prompt "李白的静夜思写在古墙上"

https://huggingface.co/HiDream-ai/HiDream-O1-Image#usage使用方法

推理需要支持 CUDA 的 GPU。以下示例使用未蒸馏模型(\-\-model\_type full);最后一小节介绍如何使用蒸馏模型(\-\-model\_type dev)执行相同任务。

https://huggingface.co/HiDream-ai/HiDream-O1-Image#1-text-to-image-generation1. 文本生成图像

根据文本提示词生成图像:

python inference.py \ --model_path /path/to/HiDream-O1-Image \ --prompt "medium shot, eye-level, front view. A woman is seated in an ornate bedroom, illuminated by candlelight, with a calm and composed expression. The subject is a young woman with fair skin, light brown hair styled in an updo with loose tendrils framing her face, and blue eyes. She wears a cream-colored satin robe with delicate floral embroidery and lace trim along the neckline. Her ears are adorned with pearl drop earrings. She is seated on a bed with a dark, intricately carved wooden headboard. To her left, a wooden nightstand holds three lit white candles and a candelabra with multiple lit candles in the background. The bed is covered with patterned pillows and a dark, textured blanket. The walls are paneled with dark wood and feature a large, ornate tapestry with muted earth tones. The lighting creates soft highlights on her face and robe, with warm shadows cast across the room." \ --output_image results/t2i.png \ --height 2048 \ --width 2048

https://huggingface.co/HiDream-ai/HiDream-O1-Image#2-instruction-based-image-editing2. 基于指令的图像编辑

提供单张参考图像和一条编辑指令:

python inference.py \ --model_path /path/to/HiDream-O1-Image \ --prompt "remove the earphones" \ --ref_images assets/edit/test.jpg \ --output_image results/edit.png \ --keep_original_aspect

https://huggingface.co/HiDream-ai/HiDream-O1-Image#3-multi-reference-subject-driven-personalization3. 多参考图像主体驱动个性化

提供两张或多张定义主体的参考图像,以及将其置于新场景的提示词:

python inference.py \ --model_path /path/to/HiDream-O1-Image \ --prompt "A young boy with blonde hair stands on steps wearing light blue jeans, a white t-shirt with logo, and blue and white sneakers. He wears a brown cord necklace with beads, a black wristwatch with digital display, and carries a yellow fanny pack with white zipper. In his hand is a red boxing glove with white top, a teal plastic toy car, and a plastic toy figure of Captain America. He wears a straw hat with cream band. Natural light illuminates the scene." \ --ref_images assets/IP/1.jpg assets/IP/2.jpg assets/IP/3.jpg assets/IP/4.jpg assets/IP/5.jpg assets/IP/6.jpg assets/IP/7.jpg assets/IP/8.jpg assets/IP/9.jpg assets/IP/10.jpg \ --output_image results/subject.png

https://huggingface.co/HiDream-ai/HiDream-O1-Image#4-running-with-the-dev-model4. 使用 Dev 模型运行

以上三种任务均可使用 Dev 模型运行,只需将 \-\-model\_path 切换为 Dev 检查点并设置 \-\-model\_type dev。例如:

python inference.py \ --model_path /path/to/HiDream-O1-Image-Dev \ --prompt "A dog holds a sign that says \"HiDream-O1-Image release.\"" \ --output_image results/t2i_dev.png \ --model_type dev

https://huggingface.co/HiDream-ai/HiDream-O1-Image#command-line-arguments命令行参数

  • \-\-model\_path:完整 HuggingFace 模型目录的路径(未蒸馏或蒸馏版本)。
  • \-\-prompt:生成或编辑任务的文本提示词。
  • \-\-ref\_images:一张或多张参考图像的路径(可选;以空格分

相似文章

baidu/ERNIE-Image

Hugging Face Models Trending

百度发布ERNIE-Image,这是一个基于扩散Transformer架构、拥有8B参数的开源权重文本到图像生成模型。它在开源模型中达到了最先进的性能,在文本渲染、指令跟随和结构化图像生成方面表现出色。

prunaai/z-image-turbo

Replicate Explore

阿里巴巴60亿参数的Z-Image-Turbo文生图模型,经PrunaAI进一步压缩,可在8步扩散下于1秒内生成1024×1024双语文字照片级图像。

推出 4o 图像生成功能

OpenAI Blog

OpenAI 在 GPT-4o 中引入原生图像生成功能,具有改进的文本渲染、精确的物体处理(10-20 个对象)和通过对话优化的上下文感知生成能力。该模型擅长生成实用的、具有交流价值的图像,具有准确的符号渲染和与上传图像的集成功能。

这就是 ChatGPT Images 2.0

YouTube AI Channels

OpenAI 发布 Imagen 2.0,这款 AI 图像生成器可以联网、推理、精准渲染文字,并一次性输出多张 2K 分辨率的多语言图像。