1-Bit Bonsai Image 4B 本地设备图像生成

Hacker News Top 2026/05/31 15:04 模型

image-generation local-inference compressed-models open-weights diffusion efficient-ai mobile-deployment

摘要

PrismML 发布 Bonsai Image 4B，这是一系列紧凑型图像生成模型，使用 1-bit 和三进制权重，能够在笔记本电脑和 iPhone 等本地设备上实现高质量扩散推理，同时显著减少内存占用。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/31 16:35

# 介绍 1-bit 和 Ternary Bonsai Image 4B：面向本地设备的图像生成模型来源：https://prismml.com/news/bonsai-image-4b 由 Ternary Bonsai Image 4B 生成的图像今天，我们发布**Bonsai Image 4B**，这是一个紧凑型图像生成模型系列，专为在本地硬件（从笔记本电脑到手机）上运行高质量扩散推理而设计。 Bonsai Image 4B 提供两种变体： - **1-bit Bonsai Image 4B**使用二进制 {−1, +1} transformer 权重，并带有 FP16 分组缩放因子，每个权重的有效位数为 1.125。它面向最大压缩，适用于内存压力、带宽和部署规模为主要约束的场景。 - **Ternary Bonsai Image 4B**使用三进制 {−1, 0, +1} transformer 权重，并带有 FP16 分组缩放因子，每个权重的有效位数为 1.71。额外的零状态为模型提供了更强的表示灵活性，在保持极高紧凑性的同时，提升了图像质量和提示忠实度。其结果是图像生成进入了一个新的部署阶段：可用的输出、开放的权重，以及在此前这类模型无法触及的设备上实现实用的本地推理。据我们所知，**Bonsai Image 4B 是其参数类别中首个能直接在 iPhone 上运行的图像模型**。 ## 专为本地生成而设计由 1-bit Bonsai Image 4B 生成的图像本地图像生成始于一个硬约束：模型必须适配设备的可用内存。对于一个 4B 类图像模型，扩散 transformer 是模型中最大的部分，并且在生成过程中会被反复调用。每一步去噪都会再次调用 transformer，因此 transformer 的大小直接决定了内存压力、带宽需求和本地推理速度。 Bonsai Image 4B 基于 FLUX.2 Klein 4B 构建。它保留了架构不变，但改变了 transformer 权重的表示方式。通过将这些权重转换为二进制和三进制形式，Bonsai 缩减了图像流水线中对本地部署最关键的那部分。 > **表 I：** 各模型的扩散 transformer 占用情况。二进制层相对于全精度 transformer 权重提供了大约 14 倍的缩减。一小部分对精度敏感的辅助张量（约 5%），称为投影层，仍保留 FP16 格式，因此最终的 1-bit Bonsai Image 4B transformer 大小为 **0.93 GB**，比全精度的 FLUX.2 Klein 4B（7.75 GB）缩减了 8.3 倍。三进制变体遵循相同结构。其三进制层提供了大约 10 倍的缩减，最终的 Ternary Bonsai Image 4B transformer 大小为 **1.21 GB**，相比全精度 transformer 缩减了 6.4 倍。它比 1-bit 模型稍大，但额外的零状态提升了图像质量和提示忠实度。包括压缩后的文本编码器和 FP16 VAE，1-bit Bonsai Image 4B 在 Apple Silicon 上的部署包为 3.42 GB，Ternary Bonsai Image 4B 为 3.88 GB。作为对比，全精度 FLUX.2 Klein 4B 需要 15.97 GB 的部署包。由于运行时文本编码器在编码提示后被卸载，平均内存使用量小于总部署包。在生成 512x512 图像时，二进制和三进制模型的平均活跃内存分别为 1.5 GB 和 1.96 GB，而原始 FLUX.2 Klein 4B 为 11.74 GB（分别缩减了 7.8 倍和 6.0 倍）。对于 1024x1024 图像，二进制和三进制模型的平均活跃内存分别为 1.95 GB 和 2.38 GB，而原始 FLUX.2 Klein 4B 为 14.39 GB（分别缩减了 7.4 倍和 6.0 倍）。这种内存占用的缩减改变了模型的运行范围。我们的部署栈支持 Apple Silicon iPhone、iPad 和 Mac 以及 CUDA GPU，在 Apple 硬件上使用 MLX 低位路径，在 CUDA 上使用 Gemlite 低位 GEMM 内核。在 iPhone 17 Pro Max 上，全精度 FLUX.2 Klein 4B 流水线无法适配设备内存预算，而两个 Bonsai Image 变体均可运行在设备上。 > 视频 I：Bonsai Studio 上的图像生成实际使用中，Bonsai Image 4B 在 iPhone 17 Pro Max 上生成 512x512 图像需要 9.4 秒，在 Mac M4 Pro 上约 6 秒。在 Mac M4 Pro 上，Bonsai Image 4B 比未经优化的全精度 MFLUX 流水线快最多 5.6 倍。 ## 性能基准测试压缩只在模型仍然有用时才有意义。我们通过三个互补的基准测试评估了 Bonsai Image 4B：**GenEval** 用于物体组合和属性绑定；**HPSv3** 用于人类偏好和美学质量；**DPG-Bench** 用于密集提示遵循和语义忠实度。 .png) Bonsai Image 与 FLUX.2 Klein 4B 模型的定性对比。> **表 II：** Ternary Bonsai Image 4B 与其他模型的图像质量基准对比。 Ternary Bonsai Image 4B 是面向质量的变体。在 1.21 GB 下，它在 GenEval、HPSv3 和 DPG-Bench 上保留了 FLUX.2 Klein 4B 95% 的准确度，同时将扩散 transformer 占用量缩减了 6.4 倍。 1-bit Bonsai Image 4B 是面向占用的变体。它将扩散 transformer 缩小到 1 GB 以下，缩减了 8.3 倍，同时在相同的三个评估中仍能取得强劲的基准分数（保留了 FLUX.2 Klein 4B 88% 的准确度）。两个变体共同推动了质量-占用前沿。Bonsai Image 在仅使用现代 4B 类图像模型一小部分扩散 transformer 占用的情况下，仍保持竞争力。同时，它显著优于内存占用相似的小型模型。这正是我们在先前 Bonsai 语言模型中看到的帕累托迁移。Bonsai Image 将现代扩散 transformer 行为带入了此前仅属于更小、能力更低模型的内存范围。 ## 为何重要图像生成不仅是一个模型质量问题，也是一个部署问题。云 API 对于许多产品来说仍然是最合适的选择。但纯云生成会带来特定产品限制：每个提示都是一次远程请求，每次迭代都会产生边际服务成本，每次交互都会增加往返延迟。这一点很重要，因为图像生成本质上是迭代的。用户很少只生成一张图像。他们修改提示、比较输出、生成变体、丢弃失败结果并再次尝试。当每次尝试都是服务器端任务时，创意循环就变成了用户需要计量和等待的事情。本地推理改变了这一点。一旦模型适配设备，生成就可以直接嵌入产品体验中。它变得更便宜、迭代更快，并且在提示和生成资产需要保持隐私的环境中更容易使用。 Bonsai Image 4B 是迈向这种部署模式的一步：在用户身边、他们已有的硬件上运行可用的图像生成。由 Ternary Bonsai Image 4B 生成的图像## 可用性 1-bit 和 Ternary Bonsai Image 4B 都将以开放权重和代码的形式发布，采用 **Apache 2.0 许可证**。与此同时，我们还推出了 Bonsai Studio，这是一款 iOS 应用，可直接在 iPhone 上体验 Bonsai Image 4B。 ## 加入我们 PrismML 源自一个加州理工学院研究员团队，并在 Khosla Ventures、Cerberus 和 Google 的支持下成立。我们花了数年时间攻克该领域最棘手的问题之一：在不牺牲推理能力的前提下压缩神经网络。如果您想助力构建下一代最先进的 AI，我们非常期待您的加入。请查看我们的职业页面 (https://prismml.com/careers)。 ### 资源 - 白皮书 (https://github.com/PrismML-Eng/Bonsai-Image-Demo/blob/main/bonsai-image-4b-whitepaper.pdf) - Hugging Face (https://huggingface.co/collections/prism-ml/bonsai-image) - WebGPU 演示 (https://huggingface.co/spaces/webml-community/bonsai-image-webgpu) - Bonsai Studio（iPhone 版） (https://apps.apple.com/us/app/bonsai-studio-by-prismml/id6767042620) - GitHub (https://github.com/PrismML-Eng/Bonsai-image-demo)

相似文章

PrismML 刚刚发布了二值和三值的 Bonsai Image 4B：一种 1比特/三值文本到图像扩散变换器，甚至可以在浏览器中通过 WebGPU 100% 本地运行。

Reddit r/LocalLLaMA

PrismML 发布了 Bonsai Image 4B 模型的二值和三值量化版本，使得文本到图像生成可以仅用 3GB 大小通过 WebGPU 在浏览器中本地运行，采用 Apache-2.0 许可证。

prism-ml/bonsai-image-ternary-4B-gemlite-2bit

Hugging Face Models Trending

Prism ML发布Bonsai Image，一个1.21 GB的文本到图像扩散变换器，使用三元权重（1.58-bit）用于NVIDIA GPU，在RTX 3080上4.5秒生成1024²图像，体积远小于FP16。

@hank_aibtc: WTF？图像生成彻底变天了！ PrismML 刚刚放出 Bonsai Image 4B —1-bit 二值和三值量化扩散模型！ - 模型才 ~3GB（1-bit 版甚至压到 0.93GB），而同参数的 FLUX.2 Klein 4B 要…

X AI KOLs Timeline

PrismML 发布了 Bonsai Image 4B，一种 1-bit 二值和三值量化扩散模型，大小仅为 3GB（1-bit 版 0.93GB），相比同参数 FLUX.2 Klein 4B 的 16GB 压缩了 8 倍以上，并支持完全本地化浏览器运行。

Ternary Bonsai：1.58 比特下的顶级智能

Hacker News Top

一种使用三值权重（-1、0、1）的高效 AI 模型架构，仅需 1.58 比特/参数即可实现具有竞争力的性能，可部署在极度受限的设备上。

本地iPhone AI图像生成正变得实用 - 每张图片仅需3秒

Reddit r/ArtificialInteligence

基准测试显示，在iPhone上本地运行Stable Diffusion 1.5，使用Realistic Vision V5.1 Hyper等优化模型，生成512x512图像最快仅需3.1秒，使得设备端AI图像生成变得切实可行。