标签
Opus 4.8 卡的一项研究表明,虽然多智能体系统在 ProgramBench 上并未取得更好的结果,但它们达到中等解决方案的速度提升了一倍。
GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解,显著优于Opus 4.7。