@yacineMTB: 如果这种情况持续下去,每个人都会转向 got 5.5(如果他们还没这么做的话)。看起来如果你还在使用 opus,你根本就是…
摘要
YacineMTB 认为 GPT 5.5(可能是一个笔误)超越了 Anthropic 的 Opus 模型,暗示用户正在离开 Opus。Dylan Field 批评 Opus 4.8 好奇心下降,谄媚性增加。
查看缓存全文
缓存时间: 2026/05/31 00:28
如果这样下去,所有人都会转向got 5.5——要是还没换的话。说实话,如果你还在用opus,只能说明你根本分辨不出差距。我自己都被这差距之大惊呆了。Anthropic是不是要完蛋了?
Dylan Field (@zoink): Opus 4.5是个非常奇怪的模型。显然Anthropic试图提升诚实度,这值得赞赏。但模型的求知欲(在4.4里就已经更差了)进一步退化。结果就是一个爱评判的个性 + 谄媚 + 各种模棱两可。基本上就是Opus 3的反面。
相似文章
@bentossell: 等等……如果大多数人都认为5.5优于4.7,我猜那是在终端编码基准测试上……4.8仍然被5.5超…
这条推文讨论了Claude Opus 4.8的发布,该版本在Opus 4.7的基础上提升了判断力并延长了独立工作能力,不过也指出在终端编码基准测试中,5.5版本仍然优于它。
@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。
@shikhr_: 在Opus 4.9之后,Anthropic别无选择,只能发布Opus 5
一条推文猜测,Anthropic在Opus 4.9之后必须发布Opus 5。
@omarsar0:一样。对 Opus 4.8(规划)和 GPT-5.5(执行)很满意。另外,把步骤拆分成更小的部分来提高质量这一点被严重低估了。
一位开发者分享了对 Opus 4.8(用于规划)和 GPT-5.5(用于执行)的满意,强调将任务分解成更小的步骤能提高质量,并且动态工作流程被低估了。
@sashimikun_void: GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8。Opus 4.8 耗时两倍,生成三倍的…
GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8,以更低的成本和更少的 token 膨胀获得了更高的分数。