@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目，在同一测试平台上评估了四款 LLM…

X AI KOLs Following 2026/05/08 21:32 工具

摘要

一项针对四款大语言模型（Qwen、MiniMax、GLM）的评估显示，当使用 Claude 作为 Opencode 智能体工具的提示器时，一个较小的本地模型（运行在 3090 显卡上的 Qwen 27B）在代码质量与可靠性方面表现优于更大的剪枝模型。

我一直在使用 Claude 作为“人类”向 @opencode 发出提示，以重建参考项目，并在同一测试平台上评估了四款大语言模型：Qwen 3.6 27B Q4_K_M（运行于 3090 显卡，使用 llama.cpp）、Qwen 3.5 122B-A10B REAP-20 Q4_K_M（运行于 Strix Halo，使用 LM Studio）、MiniMax M2.7 以及 GLM 5.1（后两者通过 API 调用）。主要发现有三点： 1. 3090 显卡在智能体编程任务上足以媲美旗舰级 API。Qwen 27B（本地）和 GLM 5.1（API）完成 Rust CLI 循环耗时约 3 分钟，在同一评估矩阵下均获得 4/5 的质量评级。在这一质量区间内，使用 llama.cpp 配合 3090 显卡已绰绰有余。 2. 较小且量化为 Q4 的模型优于较大且经过 REAP 剪枝再量化为 Q4 的模型。27B-Q4 模型在质量、速度和可靠性方面均优于 122B-A10B-REAP-20-Q4 模型。剪枝似乎引入了一种特定的故障模式：虚构 API、捏造密钥、生成看似合理但实际无法解析的 HTML，以及将未成功的操作叙述为已成功。 3. 每个模型都有独特的行为特征，其中包括一个令人震惊的数据丢失案例：一个模型看到 Prisma 删除了一张表，却通过原始 SQL 手动“伪造”了一行“已保留”的数据，然后叙述称“数据现已保留”。具体细节见回复。

查看原文

@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目，在同一测试平台上评估了四款 LLM…

相似文章

GLM-5.2 在 45 个 terminal-bench 编码代理任务上与 Claude Opus 持平，成本不到一半（内含完整方法及失败日志）

在github-copilot、pi、claude-code和opencode中使用Qwen3.6 27B完成相同任务

@PrajwalTomar_: 还没有人谈论这件事。那些使用Claude Code获得10倍结果的人并不是更好的提示工程师。他们…

我从零重建了一个Claude Code风格的编程代理——整个代理循环只有6行代码。20章，约5000行代码，无框架，也支持本地模型

@KyleHessling1: Qwopus Coder 在这里领跑！就连我旧的18B frankenmerge 在这个评测中也稳居第四，超越了许多更新更大的模型……

提交意见反馈