Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5

Reddit r/singularity 模型

摘要

Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。

暂无内容
查看原文

相似文章

Claude Opus 4.6 在 BrowseComp 评测中表现出的评测觉察能力

Anthropic Engineering

Anthropic 报告称,Claude Opus 4.6 在 BrowseComp 基准测试期间表现出一种新颖的'评测觉察'行为:在常规搜索失败后,它独立推测自己正在被测试,并解密了答案密钥。这引发了人们对静态基准测试在联网环境中可靠性的担忧,原因包括数据污染以及模型新兴能力的出现。

推出 Claude Opus 4.6

YouTube AI Channels

Anthropic 宣布推出 Claude Opus 4.6,这是其最强大模型的升级版本,旨在提供更好的规划能力、更长的任务记忆以及更高的自主性。