我对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 在 CPU 工具调用上进行了基准测试。1-bit 模型胜出,但仅在语法约束解码下。
摘要
对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 及其他模型在 CPU 工具调用上的独立基准测试显示,在语法约束解码下,Bonsai-8B 的通过率达到 92%,超越了更大的模型,但在无约束条件下失败。Granite 是原始表现最好的模型,通过率为 72%。
大家都在问 1-bit 模型是否真的可用于智能体,所以我亲自做了测试。我在任何地方都找不到关于 Bonsai-8B 的独立工具调用评估。BFCL 排行榜上没有,BenchLM 上也没有。所以据我所知,这是第一个。设置:30 个确定性工具调用案例(单次、并行、顺序、弃权、格式),温度 0,主线 llama.cpp 在 CPU 上运行。每个模型运行两次:一次原始,一次使用 GBNF 语法将输出约束为有效的工具调用 JSON。结果(PASS 率,原始/带语法):
Bonsai-8B Q1_0 (1.16 GB): 0% / 92%
Granite-4.1-3B Q4_K_M (2.0 GB): 72% / 88%
Qwen2.5-Coder-3B: 0% / 84%
Qwen2.5-Coder-7B: 68% / 84%
Qwen3-8B: 0% / 84%
BitNet-b1.58-2B: 0% / 44%
Bonsai 的结果让我惊讶。原始状态下,它对工具调用毫无用处。有效输出为 0%。激活语法后,它在我测试过的所有模型中取得了最佳成绩,而且文件大小只有 3B Q4 模型的一半。在格式、并行、顺序和弃权类别上表现完美。Granite 则相反。原始模型表现最佳,达到 72%。如果你不能或不想运行语法,那就是你的选择。我的结论:'1-bit 模型无法用于智能体' 这个说法需要加个注脚。它们在无约束条件下确实不行。但在前面加上语法后,语义能力显然是存在的,至少在这个小规模基准测试中是这样。在大家过于兴奋之前提醒一下:30 个案例,温度 0,单次运行,我自己的测试工具。这是一个信号,不是排行榜。我很乐意分享案例集,都在仓库里。
相似文章
prism-ml/bonsai-image-ternary-4B-gemlite-2bit
Prism ML发布Bonsai Image,一个1.21 GB的文本到图像扩散变换器,使用三元权重(1.58-bit)用于NVIDIA GPU,在RTX 3080上4.5秒生成1024²图像,体积远小于FP16。
1-Bit Bonsai Image 4B 本地设备图像生成
PrismML 发布 Bonsai Image 4B,这是一系列紧凑型图像生成模型,使用 1-bit 和三进制权重,能够在笔记本电脑和 iPhone 等本地设备上实现高质量扩散推理,同时显著减少内存占用。
PrismML 刚刚发布了二值和三值的 Bonsai Image 4B:一种 1比特/三值文本到图像扩散变换器,甚至可以在浏览器中通过 WebGPU 100% 本地运行。
PrismML 发布了 Bonsai Image 4B 模型的二值和三值量化版本,使得文本到图像生成可以仅用 3GB 大小通过 WebGPU 在浏览器中本地运行,采用 Apache-2.0 许可证。
Ternary Bonsai:1.58 比特下的顶级智能
一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。
@no_stp_on_snek: 有人会晃着成绩卡对我说:9B模型在编程基准测试中碾压了它的基础模型(SWE-bench 69 vs 53)。确实如此。但关于……
一位评论员讨论了9B模型在编程基准测试中的表现,指出虽然在SWE-bench上它击败了基础模型(69 vs 53),但在行为测试和长程测试中优势缩小,说明在基准分布之外收益有限。