本地LLM实战测试:代码生成、质量与速度权衡

Reddit r/LocalLLaMA 工具

摘要

作者构建了一个基准测试框架,用于评估本地LLM在自动生成Go代码方面的能力,重点聚焦SIEM流水线的日志解析器生成,并发布了对比质量与速度的测试结果。

大家好,过去几个月我一直在开发一个AI智能体,它能够利用本地LLM自主编写Go代码。主要应用场景是为SIEM流水线生成日志解析器。实际工作中,很大一部分精力都花在了评估环节:如何客观衡量一个模型在自主编码任务中的实际价值?为此,我构建了一个测试框架,能够(1)让智能体生成真实的Go解析器,(2)编译Go代码,(3)验证提取的字段和类型,(4)根据预期模式评估解析质量,(5)并跟踪长时间运行下的吞吐量/速度。鉴于当前开放权重模型的发布节奏,测试结果颇有意思。我在以下链接发布了该基准测试及方法论的首个公开版本:[https://ndocs.teskalabs.com/logman.io/blog/2026/04/14/testing-local-llms-in-practice-code-generation-quality-vs-speed/](https://ndocs.teskalabs.com/logman.io/blog/2026/04/14/testing-local-llms-in-practice-code-generation-quality-vs-speed/)。欢迎提供反馈。另外,大家觉得接下来我应该测试哪个模型?
查看原文

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。