@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
摘要
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。
Anthropic的新款Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%……
……但在UI任务上明显更出色。真正的关键在于让它们协同工作。
借助Orca内置的编排功能,你可以让Codex将UI密集型任务直接委托给Claude Code:
1. https://t.co/KAvu9OM0ly
查看缓存全文
缓存时间: 2026/05/30 02:23
Anthropic的新Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%…
…但在UI任务上明显更出色。真正的关键在于让它们协同工作。
借助Orca的内置编排,你可以让Codex将UI密集型任务直接委托给Claude Code:
- https://t.co/KAvu9OM0ly
相似文章
@sashimikun_void: GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8。Opus 4.8 耗时两倍,生成三倍的…
GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8,以更低的成本和更少的 token 膨胀获得了更高的分数。
Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5
Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。
@bentossell: 等等……如果大多数人都认为5.5优于4.7,我猜那是在终端编码基准测试上……4.8仍然被5.5超…
这条推文讨论了Claude Opus 4.8的发布,该版本在Opus 4.7的基础上提升了判断力并延长了独立工作能力,不过也指出在终端编码基准测试中,5.5版本仍然优于它。
“@mfpiccolo: Opus 4.8 已发布。以下是 @iiidevs 首席工程师的结论:进行了压力测试,它只是另一个无法真正理解……的语言模型”
Anthropic 发布了 Claude Opus 4.8,这是对 Opus 4.7 的增量更新,具有更精准的判断力和更长的自主工作能力,不过一些工程师对其在缺乏广泛指导下的代码生成能力仍持怀疑态度。
Claude Opus 4.8 在 ARC-AGI 3 上得分超过 1% !!
Claude Opus 4.8 在 ARC-AGI 3 基准测试中取得了超过 1% 的分数,表明在一项困难的人工智能推理测试上取得了轻微进展。