标签
对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 及其他模型在 CPU 工具调用上的独立基准测试显示,在语法约束解码下,Bonsai-8B 的通过率达到 92%,超越了更大的模型,但在无约束条件下失败。Granite 是原始表现最好的模型,通过率为 72%。
本文揭示,语法约束解码(GCD)可被利用为一种越狱攻击(CodeSpear),诱使大语言模型生成恶意代码,并提出一种防御方法(CodeShield),在此类攻击下仍能保持安全。