METR评估了Claude Mythos早期版本
摘要
METR于2026年3月使用其时间跨度任务套件对Claude Mythos Preview早期版本进行了评估,估计其50%-时间跨度至少为16小时,表明该模型处于当前基准测试可测量的上限水平,同时也指出在更长的时间范围内存在稳定性问题。
[https://metr.org/time-horizons/](https://metr.org/time-horizons/) "我们在2026年3月的有限窗口期内对Claude Mythos Preview早期版本进行了风险评估。我们在其任务套件上估计其50%-时间跨度至少为16小时(95%置信区间为8.5小时至55小时),处于我们可以在不添加新任务的情况下测量的上限。[](https://x.com/METR_Evals/status/2052896621760004602/photo/1) 在我们套件的228个任务中,只有5个估计耗时16小时以上,使得这一范围的测量不如任务覆盖更好的范围稳定。因此,我们不会对使用当前套件测量超过16小时的模型强调精确估计。[](https://x.com/METR_Evals/status/2052896623852929510/photo/1) 我们相信这个任务套件仍然可以区分出比当前已公开的最先进模型能力更强的模型。但我们认为这一范围的测量不够稳健,无法进行精确的定量比较或推论。原则上,时间跨度方法允许我们通过添加更长的任务来测量更高能力的模型,我们正在开发更新的方法。但这些方法仍在开发中;目前,我们建议对近期的时间跨度数据谨慎解读。"
相似文章
@liu8in: 测试 Mythos 两小时 - 目前最好的代码到动作大模型,Claude Code + Fable 5 一次性生成了这个 @HyperFrames_ 启动模板
宣布推出 Mythos 级别的模型 Claude Fable 5,其能力超越此前所有通用模型,已在代码到动作任务中经过测试。
Anthropic 为 Claude Code 和 Claude Security 准备 Mythos 1(2 分钟阅读)
Anthropic 正准备推出 Mythos 1,一款用于网络安全的强大 AI 模型,其预览标签已出现在 Claude Code 和 Claude Security 中。该模型最初受到限制,一旦安全措施到位,可能会更广泛地发布,同时正在开发一个新的安全仪表板。
2026年4月29日 科学 评估Claude的生物信息学研究能力:基于BioMysteryBench
Anthropic研究人员利用BioMysteryBench评估了Claude的生物信息学能力,发现当前模型的表现与人类专家相当,在某些复杂生物学问题上甚至优于人类专家。
@AnthropicAI: 纠正:Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月。这项评估自……
Anthropic发布了一项更正,澄清Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月,并且2024年5月的早期模型在回测评估中未显示出任何加速。
Claude Mythos/Fable 5 基准测试
展示了Claude Mythos或Fable 5模型的基准测试结果。