@KLieret: Opus 4.8 卡的一项非常有趣的研究：多智能体在 ProgramBench 上并未取得更好的结果，但它们能更快地达到…

X AI KOLs Following 2026/05/28 21:29 新闻

multi-agent programbench study performance ai-research benchmark

摘要

Opus 4.8 卡的一项研究表明，虽然多智能体系统在 ProgramBench 上并未取得更好的结果，但它们达到中等解决方案的速度提升了一倍。

Opus 4.8 卡的一项非常有趣的研究：多智能体在 ProgramBench 上并未取得更好的结果，但它们达到中等解决方案的速度提高了一倍。https://t.co/2JiaAtxORC

查看原文

查看缓存全文

缓存时间: 2026/05/30 06:06

来自 Opus 4.8 的一项非常有趣的研究：多智能体在 ProgramBench 上并未取得更好的结果，但达到中等解决方案的速度提高了 2 倍。https://t.co/2JiaAtxORC

相似文章

Reddit r/AI_Agents

Anthropic 发布了 Claude Opus 4.8，声称它是唯一在 Super-Agent 基准测试中完成所有案例的模型，并且在浏览器/计算机使用任务上优于 GPT-5.5，工具效率更高，未修正的代码缺陷更少。

X AI KOLs Timeline

一项新的斯坦福论文显示，在同等推理token预算下，单个LLM在多跳推理任务上通常优于多智能体系统，而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能，并指出上下文质量是多智能体系统能够提供益处的关键因素。

X AI KOLs Timeline

Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%，但擅长UI任务；Orca的编排功能让Codex能将UI任务委托给Claude Code。

X AI KOLs Following

一篇 Meta 论文显示，编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升，使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。

Reddit r/AI_Agents

文章质疑了Alpie Core 32B（一个针对低显存和智能体工作流优化的4位推理编码模型）的供应商基准测试的有效性，指出缺乏独立的基准测试复现。