我对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 在 CPU 工具调用上进行了基准测试。1-bit 模型胜出，但仅在语法约束解码下。

Reddit r/LocalLLaMA 2026/07/02 13:32 新闻

1-bit-models tool-calling benchmark bonsai-8b granite llama-cpp grammar-constrained-decoding cpu-inference

摘要

对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 及其他模型在 CPU 工具调用上的独立基准测试显示，在语法约束解码下，Bonsai-8B 的通过率达到 92%，超越了更大的模型，但在无约束条件下失败。Granite 是原始表现最好的模型，通过率为 72%。

大家都在问 1-bit 模型是否真的可用于智能体，所以我亲自做了测试。我在任何地方都找不到关于 Bonsai-8B 的独立工具调用评估。BFCL 排行榜上没有，BenchLM 上也没有。所以据我所知，这是第一个。设置：30 个确定性工具调用案例（单次、并行、顺序、弃权、格式），温度 0，主线 llama.cpp 在 CPU 上运行。每个模型运行两次：一次原始，一次使用 GBNF 语法将输出约束为有效的工具调用 JSON。结果（PASS 率，原始/带语法）： Bonsai-8B Q1_0 (1.16 GB): 0% / 92% Granite-4.1-3B Q4_K_M (2.0 GB): 72% / 88% Qwen2.5-Coder-3B: 0% / 84% Qwen2.5-Coder-7B: 68% / 84% Qwen3-8B: 0% / 84% BitNet-b1.58-2B: 0% / 44% Bonsai 的结果让我惊讶。原始状态下，它对工具调用毫无用处。有效输出为 0%。激活语法后，它在我测试过的所有模型中取得了最佳成绩，而且文件大小只有 3B Q4 模型的一半。在格式、并行、顺序和弃权类别上表现完美。Granite 则相反。原始模型表现最佳，达到 72%。如果你不能或不想运行语法，那就是你的选择。我的结论：'1-bit 模型无法用于智能体' 这个说法需要加个注脚。它们在无约束条件下确实不行。但在前面加上语法后，语义能力显然是存在的，至少在这个小规模基准测试中是这样。在大家过于兴奋之前提醒一下：30 个案例，温度 0，单次运行，我自己的测试工具。这是一个信号，不是排行榜。我很乐意分享案例集，都在仓库里。

查看原文

我对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 在 CPU 工具调用上进行了基准测试。1-bit 模型胜出，但仅在语法约束解码下。

相似文章

prism-ml/bonsai-image-ternary-4B-gemlite-2bit

1-Bit Bonsai Image 4B 本地设备图像生成

PrismML 刚刚发布了二值和三值的 Bonsai Image 4B：一种 1比特/三值文本到图像扩散变换器，甚至可以在浏览器中通过 WebGPU 100% 本地运行。

Ternary Bonsai：1.58 比特下的顶级智能

@no_stp_on_snek: 有人会晃着成绩卡对我说：9B模型在编程基准测试中碾压了它的基础模型（SWE-bench 69 vs 53）。确实如此。但关于……

提交意见反馈