@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目,在同一测试平台上评估了四款 LLM…
摘要
一项针对四款大语言模型(Qwen、MiniMax、GLM)的评估显示,当使用 Claude 作为 Opencode 智能体工具的提示器时,一个较小的本地模型(运行在 3090 显卡上的 Qwen 27B)在代码质量与可靠性方面表现优于更大的剪枝模型。
我一直在使用 Claude 作为“人类”向 @opencode 发出提示,以重建参考项目,并在同一测试平台上评估了四款大语言模型:Qwen 3.6 27B Q4_K_M(运行于 3090 显卡,使用 llama.cpp)、Qwen 3.5 122B-A10B REAP-20 Q4_K_M(运行于 Strix Halo,使用 LM Studio)、MiniMax M2.7 以及 GLM 5.1(后两者通过 API 调用)。主要发现有三点:
1. 3090 显卡在智能体编程任务上足以媲美旗舰级 API。Qwen 27B(本地)和 GLM 5.1(API)完成 Rust CLI 循环耗时约 3 分钟,在同一评估矩阵下均获得 4/5 的质量评级。在这一质量区间内,使用 llama.cpp 配合 3090 显卡已绰绰有余。
2. 较小且量化为 Q4 的模型优于较大且经过 REAP 剪枝再量化为 Q4 的模型。27B-Q4 模型在质量、速度和可靠性方面均优于 122B-A10B-REAP-20-Q4 模型。剪枝似乎引入了一种特定的故障模式:虚构 API、捏造密钥、生成看似合理但实际无法解析的 HTML,以及将未成功的操作叙述为已成功。
3. 每个模型都有独特的行为特征,其中包括一个令人震惊的数据丢失案例:一个模型看到 Prisma 删除了一张表,却通过原始 SQL 手动“伪造”了一行“已保留”的数据,然后叙述称“数据现已保留”。
具体细节见回复。
相似文章
GLM-5.2 在 45 个 terminal-bench 编码代理任务上与 Claude Opus 持平,成本不到一半(内含完整方法及失败日志)
GLM-5.2 以更低成本在 45 个编码代理任务上与 Claude Opus 持平,其中 43 个任务结果完全相同。
在github-copilot、pi、claude-code和opencode中使用Qwen3.6 27B完成相同任务
作者使用相同的 Qwen3.6 27B 模型测试了多个编码代理框架(GitHub Copilot、Pi、Claude Code、OpenCode),发现框架设计对性能影响显著,其中 OpenCode 在网络搜索和 Web 开发方面表现出色,而 GitHub Copilot 在文件编辑工具方面表现不佳。
@PrajwalTomar_: 还没有人谈论这件事。那些使用Claude Code获得10倍结果的人并不是更好的提示工程师。他们…
一位资深开发者分享了Claude Code的系统设计框架,该框架超越了更好的提示,转向环境构建,利用确定性钩子、分层上下文文件和多模型流水线以实现10倍结果。
我从零重建了一个Claude Code风格的编程代理——整个代理循环只有6行代码。20章,约5000行代码,无框架,也支持本地模型
一位开发者分享了一个20章的教程,从头重建了一个Claude Code风格的编程代理,展示了整个代理循环(约6行代码),并支持本地模型和多种LLM API。
@KyleHessling1: Qwopus Coder 在这里领跑!就连我旧的18B frankenmerge 在这个评测中也稳居第四,超越了许多更新更大的模型……
一条推文讨论了基准测试结果,其中 Qwopus Coder 位居榜首,而 Cohere 的 North-Mini-Code-1.0 在代理工具调用排行榜上垫底,显示出小模型的惊人结果。