1-Bit Bonsai Image 4B 本地设备图像生成
摘要
PrismML 发布 Bonsai Image 4B,这是一系列紧凑型图像生成模型,使用 1-bit 和三进制权重,能够在笔记本电脑和 iPhone 等本地设备上实现高质量扩散推理,同时显著减少内存占用。
暂无内容
查看缓存全文
缓存时间: 2026/05/31 16:35
# 介绍 1-bit 和 Ternary Bonsai Image 4B:面向本地设备的图像生成模型
来源:https://prismml.com/news/bonsai-image-4b
由 Ternary Bonsai Image 4B 生成的图像今天,我们发布**Bonsai Image 4B**,这是一个紧凑型图像生成模型系列,专为在本地硬件(从笔记本电脑到手机)上运行高质量扩散推理而设计。
Bonsai Image 4B 提供两种变体:
- **1-bit Bonsai Image 4B**使用二进制 {−1, +1} transformer 权重,并带有 FP16 分组缩放因子,每个权重的有效位数为 1.125。它面向最大压缩,适用于内存压力、带宽和部署规模为主要约束的场景。
- **Ternary Bonsai Image 4B**使用三进制 {−1, 0, +1} transformer 权重,并带有 FP16 分组缩放因子,每个权重的有效位数为 1.71。额外的零状态为模型提供了更强的表示灵活性,在保持极高紧凑性的同时,提升了图像质量和提示忠实度。
其结果是图像生成进入了一个新的部署阶段:可用的输出、开放的权重,以及在此前这类模型无法触及的设备上实现实用的本地推理。据我们所知,**Bonsai Image 4B 是其参数类别中首个能直接在 iPhone 上运行的图像模型**。
## 专为本地生成而设计
由 1-bit Bonsai Image 4B 生成的图像本地图像生成始于一个硬约束:模型必须适配设备的可用内存。
对于一个 4B 类图像模型,扩散 transformer 是模型中最大的部分,并且在生成过程中会被反复调用。每一步去噪都会再次调用 transformer,因此 transformer 的大小直接决定了内存压力、带宽需求和本地推理速度。
Bonsai Image 4B 基于 FLUX.2 Klein 4B 构建。它保留了架构不变,但改变了 transformer 权重的表示方式。通过将这些权重转换为二进制和三进制形式,Bonsai 缩减了图像流水线中对本地部署最关键的那部分。
> **表 I:** 各模型的扩散 transformer 占用情况。
二进制层相对于全精度 transformer 权重提供了大约 14 倍的缩减。一小部分对精度敏感的辅助张量(约 5%),称为投影层,仍保留 FP16 格式,因此最终的 1-bit Bonsai Image 4B transformer 大小为 **0.93 GB**,比全精度的 FLUX.2 Klein 4B(7.75 GB)缩减了 8.3 倍。
三进制变体遵循相同结构。其三进制层提供了大约 10 倍的缩减,最终的 Ternary Bonsai Image 4B transformer 大小为 **1.21 GB**,相比全精度 transformer 缩减了 6.4 倍。它比 1-bit 模型稍大,但额外的零状态提升了图像质量和提示忠实度。
包括压缩后的文本编码器和 FP16 VAE,1-bit Bonsai Image 4B 在 Apple Silicon 上的部署包为 3.42 GB,Ternary Bonsai Image 4B 为 3.88 GB。作为对比,全精度 FLUX.2 Klein 4B 需要 15.97 GB 的部署包。由于运行时文本编码器在编码提示后被卸载,平均内存使用量小于总部署包。在生成 512x512 图像时,二进制和三进制模型的平均活跃内存分别为 1.5 GB 和 1.96 GB,而原始 FLUX.2 Klein 4B 为 11.74 GB(分别缩减了 7.8 倍和 6.0 倍)。对于 1024x1024 图像,二进制和三进制模型的平均活跃内存分别为 1.95 GB 和 2.38 GB,而原始 FLUX.2 Klein 4B 为 14.39 GB(分别缩减了 7.4 倍和 6.0 倍)。
这种内存占用的缩减改变了模型的运行范围。我们的部署栈支持 Apple Silicon iPhone、iPad 和 Mac 以及 CUDA GPU,在 Apple 硬件上使用 MLX 低位路径,在 CUDA 上使用 Gemlite 低位 GEMM 内核。在 iPhone 17 Pro Max 上,全精度 FLUX.2 Klein 4B 流水线无法适配设备内存预算,而两个 Bonsai Image 变体均可运行在设备上。
> 视频 I:Bonsai Studio 上的图像生成
实际使用中,Bonsai Image 4B 在 iPhone 17 Pro Max 上生成 512x512 图像需要 9.4 秒,在 Mac M4 Pro 上约 6 秒。在 Mac M4 Pro 上,Bonsai Image 4B 比未经优化的全精度 MFLUX 流水线快最多 5.6 倍。
## 性能基准测试
压缩只在模型仍然有用时才有意义。我们通过三个互补的基准测试评估了 Bonsai Image 4B:**GenEval** 用于物体组合和属性绑定;**HPSv3** 用于人类偏好和美学质量;**DPG-Bench** 用于密集提示遵循和语义忠实度。
.png)
Bonsai Image 与 FLUX.2 Klein 4B 模型的定性对比。> **表 II:** Ternary Bonsai Image 4B 与其他模型的图像质量基准对比。
Ternary Bonsai Image 4B 是面向质量的变体。在 1.21 GB 下,它在 GenEval、HPSv3 和 DPG-Bench 上保留了 FLUX.2 Klein 4B 95% 的准确度,同时将扩散 transformer 占用量缩减了 6.4 倍。
1-bit Bonsai Image 4B 是面向占用的变体。它将扩散 transformer 缩小到 1 GB 以下,缩减了 8.3 倍,同时在相同的三个评估中仍能取得强劲的基准分数(保留了 FLUX.2 Klein 4B 88% 的准确度)。
两个变体共同推动了质量-占用前沿。Bonsai Image 在仅使用现代 4B 类图像模型一小部分扩散 transformer 占用的情况下,仍保持竞争力。同时,它显著优于内存占用相似的小型模型。这正是我们在先前 Bonsai 语言模型中看到的帕累托迁移。Bonsai Image 将现代扩散 transformer 行为带入了此前仅属于更小、能力更低模型的内存范围。
## 为何重要
图像生成不仅是一个模型质量问题,也是一个部署问题。
云 API 对于许多产品来说仍然是最合适的选择。但纯云生成会带来特定产品限制:每个提示都是一次远程请求,每次迭代都会产生边际服务成本,每次交互都会增加往返延迟。
这一点很重要,因为图像生成本质上是迭代的。用户很少只生成一张图像。他们修改提示、比较输出、生成变体、丢弃失败结果并再次尝试。当每次尝试都是服务器端任务时,创意循环就变成了用户需要计量和等待的事情。
本地推理改变了这一点。一旦模型适配设备,生成就可以直接嵌入产品体验中。它变得更便宜、迭代更快,并且在提示和生成资产需要保持隐私的环境中更容易使用。
Bonsai Image 4B 是迈向这种部署模式的一步:在用户身边、他们已有的硬件上运行可用的图像生成。
由 Ternary Bonsai Image 4B 生成的图像## 可用性
1-bit 和 Ternary Bonsai Image 4B 都将以开放权重和代码的形式发布,采用 **Apache 2.0 许可证**。
与此同时,我们还推出了 Bonsai Studio,这是一款 iOS 应用,可直接在 iPhone 上体验 Bonsai Image 4B。
## 加入我们
PrismML 源自一个加州理工学院研究员团队,并在 Khosla Ventures、Cerberus 和 Google 的支持下成立。我们花了数年时间攻克该领域最棘手的问题之一:在不牺牲推理能力的前提下压缩神经网络。
如果您想助力构建下一代最先进的 AI,我们非常期待您的加入。请查看我们的职业页面 (https://prismml.com/careers)。
### 资源
- 白皮书 (https://github.com/PrismML-Eng/Bonsai-Image-Demo/blob/main/bonsai-image-4b-whitepaper.pdf)
- Hugging Face (https://huggingface.co/collections/prism-ml/bonsai-image)
- WebGPU 演示 (https://huggingface.co/spaces/webml-community/bonsai-image-webgpu)
- Bonsai Studio(iPhone 版) (https://apps.apple.com/us/app/bonsai-studio-by-prismml/id6767042620)
- GitHub (https://github.com/PrismML-Eng/Bonsai-image-demo)
相似文章
PrismML 刚刚发布了二值和三值的 Bonsai Image 4B:一种 1比特/三值文本到图像扩散变换器,甚至可以在浏览器中通过 WebGPU 100% 本地运行。
PrismML 发布了 Bonsai Image 4B 模型的二值和三值量化版本,使得文本到图像生成可以仅用 3GB 大小通过 WebGPU 在浏览器中本地运行,采用 Apache-2.0 许可证。
prism-ml/bonsai-image-ternary-4B-gemlite-2bit
Prism ML发布Bonsai Image,一个1.21 GB的文本到图像扩散变换器,使用三元权重(1.58-bit)用于NVIDIA GPU,在RTX 3080上4.5秒生成1024²图像,体积远小于FP16。
@hank_aibtc: WTF?图像生成彻底变天了! PrismML 刚刚放出 Bonsai Image 4B —1-bit 二值和三值量化扩散模型! - 模型才 ~3GB(1-bit 版甚至压到 0.93GB), 而同参数的 FLUX.2 Klein 4B 要…
PrismML 发布了 Bonsai Image 4B,一种 1-bit 二值和三值量化扩散模型,大小仅为 3GB(1-bit 版 0.93GB),相比同参数 FLUX.2 Klein 4B 的 16GB 压缩了 8 倍以上,并支持完全本地化浏览器运行。
Ternary Bonsai:1.58 比特下的顶级智能
一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。
本地iPhone AI图像生成正变得实用 - 每张图片仅需3秒
基准测试显示,在iPhone上本地运行Stable Diffusion 1.5,使用Realistic Vision V5.1 Hyper等优化模型,生成512x512图像最快仅需3.1秒,使得设备端AI图像生成变得切实可行。