最强本地AI图像生成器来了!
摘要
Ernie Image,全新开源扩散模型,文字渲染与提示词忠实度全面超越Zage,可在ComfyUI本地运行,仅需约20 GB显存。
Ernie Image评测与安装教程。如何在ComfyUI中使用Ernie Image #ai #aitools #imagegenerator #aiart
感谢赞助商Gamma,立即体验:https://gamma.app/?utm_source=youtube&u...
查看缓存全文
缓存时间: 2026/04/21 16:43
**太长不看**
全新开源模型 Ernie Image 在文字渲染、提示词还原和真实感上全面超越前冠军 Zage;附 ComfyUI 本地免费不限量部署教程。
## Ernie Image:新晋开源王者?
刚刚发布的扩散模型 Ernie Image 已登顶公开排行榜。它擅长密集提示、清晰文字,漫画、写实、海报、信息图、抽象艺术全都能打,且没有早期 Flux 的塑料感。
## 正面硬刚:Ernie vs 前榜首 Zage
所有提示词已打在画面上,下方为关键回合。
| 任务 | 胜者 | 理由 |
|---|---|---|
| 1998 复古照片:画家拍屏幕的递归自拍 | Ernie | 胶片颗粒更真,递归概念完整 |
| 京都桌面微缩景:金阁寺、鸟居、和服行人 | Ernie | 鸟居对齐,人物比例一致 |
| 芭蕾教室+兔子+窗外大象 | Ernie | 倒影、道具、文字全对 |
| 长段日记文字 | Ernie | 仅漏 1 字、1 typo;Zage 整行幻觉 |
| 多元素面包房橱窗海报 | Ernie | 文字虽重复但真实;Zage 塑料感 |
| 节日饼干交换海报 | Zage | 赞助商 Logo 与饼干堆更完整 |
| 深色模式 UI 信息图 | Ernie | 图标/标签全对;Zage 乱码 |
| 黑白漫画分镜页 | Ernie | 分镜顺序、对话框、阅读流完美 |
| 泰姬陵半照片半素描 | 平手 | Ernie 文字可读,Zage 构图更好 |
| 像素风镜面反射 | Zage | 仅反射像素化;Ernie 整人糊 |
| 马奈印象派 | 平手 | 两者都过锐,笔触不足 |
| 极简水墨虎 | 平手 | 都抓到留白 |
| 点彩扁平风 | 平手 | 都用点大小塑形 |
| 解剖极限测试(瑜伽+爆炸) | Zage | Ernie 肢体扭曲,Zage 鸽式到位 |
| 手掌+脚底特写 | 平手 | 都过关;Ernie 浴缸姿势略飘 |
| 11:15 钟表+满酒杯 | 全灭 | 闭源巨头也数不对 |
比分:Ernie 7 胜,Zage 2 胜,6 次平手。
## 官方榜单
在开源榜上,Ernie Image 总分第一,领先 Zage、Quen、Flux2-Klein,与闭源榜首 Nano-Banana-2 差距极小。
- **Ernie-Image-Base**:画质最高,较慢,需 3–5 倍步数
- **Ernie-Image-Turbo**:观感几乎一致,实时速度;日常推荐
(表中“PE”代表内置提示词增强器开启。)
## 本地部署:免费、不限量、可离线
### 硬件
单模型约 16 GB;加文本编码器 + VAE 共需约 20 GB 显存。量化版将至,8 GB 显存可跑。
### 一键安装(Windows / macOS / Linux)
1. 安装 ComfyUI——最新版已内置 Ernie 节点
2. 下载
- Ernie-Image-Turbo.safetensors(https://huggingface.co/ErnieImage/turbo)
- 同仓库获取文本编码器与 VAE
3. 全部放入 `ComfyUI/models/Ernie/`
4. 启动 ComfyUI,选“Ernie Turbo”节点,输入中文或英文提示词,点生成
下载后无需联网。1024×1024 图约 6–8 GB 显存,RTX 3060 12 GB 轻松应对。
## 后续计划
- Ernie Image 编辑器(重绘/扩图)即将上线
- 8 bit 与 4 bit 量化测试中,数周内支持 8 GB 显卡
来源:https://www.youtube.com/watch?v=A_nAU8h9YOY
相似文章
unsloth/ERNIE-Image-Turbo-GGUF
unsloth 发布了基于百度的 ERNIE-Image-Turbo 模型的 GGUF 量化版本,采用 Unsloth Dynamic 2.0 方法,能够在配备 24GB 显存的消费级 GPU 上通过 8 步推理高效实现文生图。
baidu/ERNIE-Image
百度发布ERNIE-Image,这是一个基于扩散Transformer架构、拥有8B参数的开源权重文本到图像生成模型。它在开源模型中达到了最先进的性能,在文本渲染、指令跟随和结构化图像生成方面表现出色。
我正在推出iPhone上最快、最强大的本地AI图像生成器
推出PhoneDiffusion,一款适用于iPhone的本地AI图像生成器,生成时间低于5秒,注重隐私,无需账户。
本地iPhone AI图像生成正变得实用 - 每张图片仅需3秒
基准测试显示,在iPhone上本地运行Stable Diffusion 1.5,使用Realistic Vision V5.1 Hyper等优化模型,生成512x512图像最快仅需3.1秒,使得设备端AI图像生成变得切实可行。
baidu/ERNIE-Image-Turbo
百度发布了ERNIE-Image-Turbo,一个蒸馏文本到图像生成模型,可在8步推理中实现快速生成,同时保持强大的文本渲染、指令遵循和结构化图像生成能力。