Mythos 可以将训练代码的速度提升 52 倍(相比之下,人类在 4-8 小时内只能提升 4 倍)
摘要
Anthropic 的 Mythos 系统在优化训练代码方面实现了 52 倍的加速,而人类在同任务上 4-8 小时内只能实现 4 倍加速,但需要注意的是,绝对倍数在很大程度上取决于起始代码的质量。同类比较显示,过去一年中各模型的改进约为 3 倍到 52 倍。
[https://www.anthropic.com/institute/recursive-self-improvement](https://www.anthropic.com/institute/recursive-self-improvement) 编辑注:脚注写道:「加速效果的大小在很大程度上取决于起始代码的改进空间,不应将其视为真实世界的训练加速。因此,绝对倍数不是这里要关注的关键数字。更值得注意的是,这个实验设置能够进行同类比较——既包括不同模型之间的比较(过去一年中约 3 倍到 52 倍),也包括与熟练人类专家的比较(在同任务上 4-8 小时内约 4 倍)。」
相似文章
@AnthropicAI:每次发布新模型时,我们都会运行相同的测试:给模型一段训练小型AI模型的代码,要求新模型对其进行加速。
Anthropic 分享了内部基准测试结果,展示了AI编码能力的显著提升:2024年5月,Claude Opus 4 在机器学习代码优化任务上平均加速约3倍;而今年4月发布的新模型 Mythos Preview 达到了约52倍加速,相比之下,一位熟练人类工程师需要4-8小时才能实现4倍加速。
新Mythos检查点展示持续进步:“在32步企业网络攻击中,我们估计人类专家需要约20小时,而此检查点在十次尝试中可完成六次完整攻击。”
Mythos发布了一个新的检查点,能在十次尝试中完成六次32步企业网络攻击,而人类专家则需要约20小时。
Mythos在网络安全/黑客攻击方面优势的更多证据——与5.5版本相比,它完成了41个n-day漏洞利用中的18个,而5.5只有1个。开源/权重模型则一个都没有。
Mythos在网络安全黑客攻击中展现了强大性能,实现了41个n-day漏洞利用中的18个,而5.5版本只有1个,开源模型则一个都没有。
Anthropic 可能在'不久的将来'发布 Mythos
Anthropic 预计将在不久的将来发布一款名为 Mythos 的新 AI 模型。
Mythos 1 在 Claude Code 中被发现
Mythos 1 是一款新的 AI 模型,在 Anthropic 的编程助手 Claude Code 中被发现,暗示可能有新的版本发布。