@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目,在同一测试平台上评估了四款 LLM…

X AI KOLs Following 工具

摘要

一项针对四款大语言模型(Qwen、MiniMax、GLM)的评估显示,当使用 Claude 作为 Opencode 智能体工具的提示器时,一个较小的本地模型(运行在 3090 显卡上的 Qwen 27B)在代码质量与可靠性方面表现优于更大的剪枝模型。

我一直在使用 Claude 作为“人类”向 @opencode 发出提示,以重建参考项目,并在同一测试平台上评估了四款大语言模型:Qwen 3.6 27B Q4_K_M(运行于 3090 显卡,使用 llama.cpp)、Qwen 3.5 122B-A10B REAP-20 Q4_K_M(运行于 Strix Halo,使用 LM Studio)、MiniMax M2.7 以及 GLM 5.1(后两者通过 API 调用)。主要发现有三点: 1. 3090 显卡在智能体编程任务上足以媲美旗舰级 API。Qwen 27B(本地)和 GLM 5.1(API)完成 Rust CLI 循环耗时约 3 分钟,在同一评估矩阵下均获得 4/5 的质量评级。在这一质量区间内,使用 llama.cpp 配合 3090 显卡已绰绰有余。 2. 较小且量化为 Q4 的模型优于较大且经过 REAP 剪枝再量化为 Q4 的模型。27B-Q4 模型在质量、速度和可靠性方面均优于 122B-A10B-REAP-20-Q4 模型。剪枝似乎引入了一种特定的故障模式:虚构 API、捏造密钥、生成看似合理但实际无法解析的 HTML,以及将未成功的操作叙述为已成功。 3. 每个模型都有独特的行为特征,其中包括一个令人震惊的数据丢失案例:一个模型看到 Prisma 删除了一张表,却通过原始 SQL 手动“伪造”了一行“已保留”的数据,然后叙述称“数据现已保留”。 具体细节见回复。
查看原文

相似文章