@AnthropicAI: 纠正:Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月。这项评估自……
摘要
Anthropic发布了一项更正,澄清Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月,并且2024年5月的早期模型在回测评估中未显示出任何加速。
更正:Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月。这项评估自2024年9月才存在,但我们将其回测到了更早的模型:2024年5月的模型完全没有显示出加速。
相似文章
@AnthropicAI:每次发布新模型时,我们都会运行相同的测试:给模型一段训练小型AI模型的代码,要求新模型对其进行加速。
Anthropic 分享了内部基准测试结果,展示了AI编码能力的显著提升:2024年5月,Claude Opus 4 在机器学习代码优化任务上平均加速约3倍;而今年4月发布的新模型 Mythos Preview 达到了约52倍加速,相比之下,一位熟练人类工程师需要4-8小时才能实现4倍加速。
@rohanpaul_ai:Claude Opus 4.8 的快速模式速度约提升2.5倍,成本降低3倍。AI/ML API(@aimlapi)已…
Claude Opus 4.8 现已推出快速模式,速度提升2.5倍且成本降低3倍,已集成至 AI/ML API,并为部分用户提供免费访问。
Claude Opus 4.8 宣称是唯一在 Super-Agent 基准测试中完成所有案例的模型。有人在实际代理中运行过它吗?
Anthropic 发布了 Claude Opus 4.8,声称它是唯一在 Super-Agent 基准测试中完成所有案例的模型,并且在浏览器/计算机使用任务上优于 GPT-5.5,工具效率更高,未修正的代码缺陷更少。
Claude Opus 4.7 正式发布
Anthropic 发布了 Claude Opus 4.7,这是一款全新的 AI 模型,在高级软件工程、视觉能力和自我验证方面实现了显著提升。该版本包含专门的安全防护措施,现已通过 API 及主要云服务商提供。
Claude Opus 4.8 在 ARC-AGI 3 上得分超过 1% !!
Claude Opus 4.8 在 ARC-AGI 3 基准测试中取得了超过 1% 的分数,表明在一项困难的人工智能推理测试上取得了轻微进展。