我对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 在 CPU 工具调用上进行了基准测试。1-bit 模型胜出,但仅在语法约束解码下。

Reddit r/LocalLLaMA 新闻

摘要

对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 及其他模型在 CPU 工具调用上的独立基准测试显示,在语法约束解码下,Bonsai-8B 的通过率达到 92%,超越了更大的模型,但在无约束条件下失败。Granite 是原始表现最好的模型,通过率为 72%。

大家都在问 1-bit 模型是否真的可用于智能体,所以我亲自做了测试。我在任何地方都找不到关于 Bonsai-8B 的独立工具调用评估。BFCL 排行榜上没有,BenchLM 上也没有。所以据我所知,这是第一个。设置:30 个确定性工具调用案例(单次、并行、顺序、弃权、格式),温度 0,主线 llama.cpp 在 CPU 上运行。每个模型运行两次:一次原始,一次使用 GBNF 语法将输出约束为有效的工具调用 JSON。结果(PASS 率,原始/带语法): Bonsai-8B Q1_0 (1.16 GB): 0% / 92% Granite-4.1-3B Q4_K_M (2.0 GB): 72% / 88% Qwen2.5-Coder-3B: 0% / 84% Qwen2.5-Coder-7B: 68% / 84% Qwen3-8B: 0% / 84% BitNet-b1.58-2B: 0% / 44% Bonsai 的结果让我惊讶。原始状态下,它对工具调用毫无用处。有效输出为 0%。激活语法后,它在我测试过的所有模型中取得了最佳成绩,而且文件大小只有 3B Q4 模型的一半。在格式、并行、顺序和弃权类别上表现完美。Granite 则相反。原始模型表现最佳,达到 72%。如果你不能或不想运行语法,那就是你的选择。我的结论:'1-bit 模型无法用于智能体' 这个说法需要加个注脚。它们在无约束条件下确实不行。但在前面加上语法后,语义能力显然是存在的,至少在这个小规模基准测试中是这样。在大家过于兴奋之前提醒一下:30 个案例,温度 0,单次运行,我自己的测试工具。这是一个信号,不是排行榜。我很乐意分享案例集,都在仓库里。
查看原文

相似文章

prism-ml/bonsai-image-ternary-4B-gemlite-2bit

Hugging Face Models Trending

Prism ML发布Bonsai Image,一个1.21 GB的文本到图像扩散变换器,使用三元权重(1.58-bit)用于NVIDIA GPU,在RTX 3080上4.5秒生成1024²图像,体积远小于FP16。

1-Bit Bonsai Image 4B 本地设备图像生成

Hacker News Top

PrismML 发布 Bonsai Image 4B,这是一系列紧凑型图像生成模型,使用 1-bit 和三进制权重,能够在笔记本电脑和 iPhone 等本地设备上实现高质量扩散推理,同时显著减少内存占用。

Ternary Bonsai:1.58 比特下的顶级智能

Hacker News Top

一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。