@AnthropicAI:每次发布新模型时,我们都会运行相同的测试:给模型一段训练小型AI模型的代码,要求新模型对其进行加速。
摘要
Anthropic 分享了内部基准测试结果,展示了AI编码能力的显著提升:2024年5月,Claude Opus 4 在机器学习代码优化任务上平均加速约3倍;而今年4月发布的新模型 Mythos Preview 达到了约52倍加速,相比之下,一位熟练人类工程师需要4-8小时才能实现4倍加速。
每次发布新模型时,我们都会运行相同的测试:给模型一段训练小型AI模型的代码,要求新模型对其加速。一位熟练人类需要4-8小时才能实现4倍加速。2024年5月,Claude Opus 4 平均加速约3倍。今年4月,Mythos Preview 实现了约52倍加速。
相似文章
Mythos 可以将训练代码的速度提升 52 倍(相比之下,人类在 4-8 小时内只能提升 4 倍)
Anthropic 的 Mythos 系统在优化训练代码方面实现了 52 倍的加速,而人类在同任务上 4-8 小时内只能实现 4 倍加速,但需要注意的是,绝对倍数在很大程度上取决于起始代码的质量。同类比较显示,过去一年中各模型的改进约为 3 倍到 52 倍。
@AnthropicAI:AI 研究是一系列面向下一步的决策。我们分析了人类研究者走错方向的情景,向 Claude 展示到该节点的会话,并询问它接下来该怎么做。
Anthropic 的 Mythos Preview 模型在纠正错误决策方面的表现优于人类研究者,正确率高达 64%,相比 2024 年的 22% 有显著提升,展示了 Claude 在科研辅助方面不断进步的能力。
@AnthropicAI: 纠正:Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月。这项评估自……
Anthropic发布了一项更正,澄清Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月,并且2024年5月的早期模型在回测评估中未显示出任何加速。
Claude Mythos、Deepseek v4、HappyHorse、Meta 新 AI、实时视频游戏:AI 新闻
Anthropic 公布被雪藏的 Claude Mythos 模型,可自主挖掘数千个 0-day;ZAI 开源 1.5 TB GLM-5.1,登顶开放权重基准;阿里巴巴未发布的 HappyHorse 视频模型冲上公开榜第一;Deepseek 放出“专家模式”v4 预览。
Anthropic 可能在'不久的将来'发布 Mythos
Anthropic 预计将在不久的将来发布一款名为 Mythos 的新 AI 模型。