@AnthropicAI：每次发布新模型时，我们都会运行相同的测试：给模型一段训练小型AI模型的代码，要求新模型对其进行加速。

X AI KOLs 2026/06/04 16:15 新闻

ai-benchmarking ai-performance code-optimization anthropic claude ai-progress

摘要

Anthropic 分享了内部基准测试结果，展示了AI编码能力的显著提升：2024年5月，Claude Opus 4 在机器学习代码优化任务上平均加速约3倍；而今年4月发布的新模型 Mythos Preview 达到了约52倍加速，相比之下，一位熟练人类工程师需要4-8小时才能实现4倍加速。

每次发布新模型时，我们都会运行相同的测试：给模型一段训练小型AI模型的代码，要求新模型对其加速。一位熟练人类需要4-8小时才能实现4倍加速。2024年5月，Claude Opus 4 平均加速约3倍。今年4月，Mythos Preview 实现了约52倍加速。

查看原文

相似文章

Reddit r/singularity

Anthropic 的 Mythos 系统在优化训练代码方面实现了 52 倍的加速，而人类在同任务上 4-8 小时内只能实现 4 倍加速，但需要注意的是，绝对倍数在很大程度上取决于起始代码的质量。同类比较显示，过去一年中各模型的改进约为 3 倍到 52 倍。

X AI KOLs

Anthropic 的 Mythos Preview 模型在纠正错误决策方面的表现优于人类研究者，正确率高达 64%，相比 2024 年的 22% 有显著提升，展示了 Claude 在科研辅助方面不断进步的能力。

X AI KOLs Following

据推测，Anthropic新模型Mythos于今年2月训练完成后，悄然改变了研发节奏，使得过去5个月AI能力显著跃升，领先模型正在帮助训练下一代模型。

X AI KOLs

Anthropic发布了一项更正，澄清Claude Opus 4的约3倍平均加速时间点为2025年5月，而非2024年5月，并且2024年5月的早期模型在回测评估中未显示出任何加速。

YouTube AI Channels

Anthropic 公布被雪藏的 Claude Mythos 模型，可自主挖掘数千个 0-day；ZAI 开源 1.5 TB GLM-5.1，登顶开放权重基准；阿里巴巴未发布的 HappyHorse 视频模型冲上公开榜第一；Deepseek 放出“专家模式”v4 预览。