我不信这个 27B 模型能碾压 Opus 4.5!谁来用真实 Agent 工作流验证一下?
摘要
一个 27B 参数的模型据称在基准测试中击败 Opus 4.5,引发社区质疑,大家呼吁用真实 Agent 工作流验证。
暂无内容
相似文章
@bcherny: 看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus的五个技巧……
关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧,例如使用自动模式、动态工作流和自我验证;还提到了用于长期软件任务的SWE-Marathon基准测试。
Claude Opus 4.8 宣称是唯一在 Super-Agent 基准测试中完成所有案例的模型。有人在实际代理中运行过它吗?
Anthropic 发布了 Claude Opus 4.8,声称它是唯一在 Super-Agent 基准测试中完成所有案例的模型,并且在浏览器/计算机使用任务上优于 GPT-5.5,工具效率更高,未修正的代码缺陷更少。
@VibeMarketer_:发现一款开源模型,可跑 300 个并行智能体,连续执行 12+ 小时,成绩碾压 GPT-5.4 和 Opus 4.6 的人生瞬间…
一款未具名的开源模型同时运行 300 个并行智能体,持续 12 小时以上,在多项基准测试中据称超越 GPT-5.4 与 Opus 4.6,权重已上传至 Hugging Face。
Opus 4.8 刚刚打破了 ARC-AGI-3(1分钟阅读)
一个名为 LisanBench 的新基准测试评估了 LLM 在需要规划、记忆和约束遵循的单词链任务上的表现,结果显示 o3 和 Anthropic 模型表现强劲。
@LottoLabs: 这里有一个有趣的模型,35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分,而 qwen 3.6 27b 得分为 59.3。关键……
Nex-AGI 发布了 Nex-N2,一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini),采用 Agentic Thinking 框架,统一了推理、工具使用和环境执行,在智能体和编码基准测试中达到顶级性能。