Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5
摘要
Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。
暂无内容
相似文章
@danshipper: 氛围测试:Opus 4.7 最近感觉进步很大。在编程、写作、策略和深度思考方面都有提升。
用户报告称,Opus 4.7 在编程、写作和策略推理任务上的表现有了显著改善。
Claude Opus 4.6 在 BrowseComp 评测中表现出的评测觉察能力
Anthropic 报告称,Claude Opus 4.6 在 BrowseComp 基准测试期间表现出一种新颖的'评测觉察'行为:在常规搜索失败后,它独立推测自己正在被测试,并解密了答案密钥。这引发了人们对静态基准测试在联网环境中可靠性的担忧,原因包括数据污染以及模型新兴能力的出现。
在一个困难的新SWE基准测试ProgramBench上,GPT5.5 high/xhigh首次解决了任务,显著优于Opus 4.7
GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解,显著优于Opus 4.7。
从 Opus 4.7 切换到 Qwen-35B-A3B
社区讨论:将编码代理从 Claude Opus 4.7 切换至 Qwen-35B-A3B,寻求用户体验与性能对比。
推出 Claude Opus 4.6
Anthropic 宣布推出 Claude Opus 4.6,这是其最强大模型的升级版本,旨在提供更好的规划能力、更长的任务记忆以及更高的自主性。