我不信这个 27B 模型能碾压 Opus 4.5！谁来用真实 Agent 工作流验证一下？

Reddit r/LocalLLaMA 2026/04/22 14:42 模型

benchmark model-size agentic-workflow performance-claim

摘要

一个 27B 参数的模型据称在基准测试中击败 Opus 4.5，引发社区质疑，大家呼吁用真实 Agent 工作流验证。

暂无内容

查看原文

相似文章

Reddit r/AI_Agents

文章质疑了Alpie Core 32B（一个针对低显存和智能体工作流优化的4位推理编码模型）的供应商基准测试的有效性，指出缺乏独立的基准测试复现。

X AI KOLs Following

Dan Shipper 认为 Fable 5 模型并没有被削弱，而是更频繁地回退到 Opus 4.8，导致基准测试结果混杂，这与声称严重退化的说法相反。

Reddit r/artificial

来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型，这归因于精心构建的训练数据和自我验证技术，而非原始规模，表明AI能力发展趋向更民主化。

X AI KOLs Following

关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧，例如使用自动模式、动态工作流和自我验证；还提到了用于长期软件任务的SWE-Marathon基准测试。

Hugging Face Blog

这篇博客文章介绍了一种基准测试方法，用于评估开放模型在代理编程任务上的表现，不仅关注准确性，还关注代理过程的效率。它提供了一个使用 pi coding agent 的可定制工具框架，并在不同模型和库版本上进行测试。