我不信这个 27B 模型能碾压 Opus 4.5！谁来用真实 Agent 工作流验证一下？

Reddit r/LocalLLaMA 2026/04/22 14:42 模型

benchmark model-size agentic-workflow performance-claim

摘要

一个 27B 参数的模型据称在基准测试中击败 Opus 4.5，引发社区质疑，大家呼吁用真实 Agent 工作流验证。

暂无内容

查看原文

相似文章

X AI KOLs Following

关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧，例如使用自动模式、动态工作流和自我验证；还提到了用于长期软件任务的SWE-Marathon基准测试。

Reddit r/AI_Agents

Anthropic 发布了 Claude Opus 4.8，声称它是唯一在 Super-Agent 基准测试中完成所有案例的模型，并且在浏览器/计算机使用任务上优于 GPT-5.5，工具效率更高，未修正的代码缺陷更少。

X AI KOLs Following

一款未具名的开源模型同时运行 300 个并行智能体，持续 12 小时以上，在多项基准测试中据称超越 GPT-5.4 与 Opus 4.6，权重已上传至 Hugging Face。

TLDR AI

一个名为 LisanBench 的新基准测试评估了 LLM 在需要规划、记忆和约束遵循的单词链任务上的表现，结果显示 o3 和 Anthropic 模型表现强劲。

X AI KOLs Following

Nex-AGI 发布了 Nex-N2，一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini)，采用 Agentic Thinking 框架，统一了推理、工具使用和环境执行，在智能体和编码基准测试中达到顶级性能。