@VibeMarketer_：发现一款开源模型，可跑 300 个并行智能体，连续执行 12+ 小时，成绩碾压 GPT-5.4 和 Opus 4.6 的人生瞬间…

X AI KOLs Following 2026/04/20 16:59 模型

open-source multi-agent benchmarks huggingface

摘要

一款未具名的开源模型同时运行 300 个并行智能体，持续 12 小时以上，在多项基准测试中据称超越 GPT-5.4 与 Opus 4.6，权重已上传至 Hugging Face。

发现一款开源模型，可跑 300 个并行智能体，连续执行 12+ 小时，在多项基准测试里碾压 GPT-5.4 和 Opus 4.6……而且权重直接放在 Hugging Face。

查看原文

查看缓存全文

缓存时间: 2026/04/22 10:41

当你发现一个开源模型，能跑 300 个并行智能体，连续执行 12 小时以上，在多项基准测试里碾压 GPT-5.4 和 Opus 4.6……而权重就放在 Hugging Face 上。

相似文章

X AI KOLs Following

OpenAI 的 GPT-5.5 模型在复杂的智能体任务和代码生成方面显示出显著改进，超越了先前版本以及如 Claude Opus 等竞争模型。

X AI KOLs Timeline

一条推文声称，OpenAI 的 GPT-5.5 以近乎一半的成本和双倍的速度表现优于 Claude Opus 4.8，宣称 OpenAI 在 AI 领域继续保持统治地位。

Reddit r/AI_Agents

Anthropic 发布了 Claude Opus 4.8，声称它是唯一在 Super-Agent 基准测试中完成所有案例的模型，并且在浏览器/计算机使用任务上优于 GPT-5.5，工具效率更高，未修正的代码缺陷更少。

X AI KOLs Timeline

有人对Qwen 3.7-Max、Claude Opus 4.7和GPT-5.5进行Agent循环对比测试，让模型自己编写俄罗斯方块机器人并迭代10轮后PK，结果显示Qwen 3.7-Max在性能和成本上均领先。

Reddit r/ArtificialInteligence

对GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro的基准测试分析表明，没有单一模型在所有任务上占据优势；要实现最佳性能，需要采用多模型路由器，根据各模型的优势与弱点进行专门化使用。