METR评估了Claude Mythos早期版本

Reddit r/singularity 2026/05/09 00:35 新闻

ai-evaluation risk-assessment time-horizons anthropic claude methodology benchmark

摘要

METR于2026年3月使用其时间跨度任务套件对Claude Mythos Preview早期版本进行了评估，估计其50%-时间跨度至少为16小时，表明该模型处于当前基准测试可测量的上限水平，同时也指出在更长的时间范围内存在稳定性问题。

[https://metr.org/time-horizons/](https://metr.org/time-horizons/) "我们在2026年3月的有限窗口期内对Claude Mythos Preview早期版本进行了风险评估。我们在其任务套件上估计其50%-时间跨度至少为16小时（95%置信区间为8.5小时至55小时），处于我们可以在不添加新任务的情况下测量的上限。[](https://x.com/METR_Evals/status/2052896621760004602/photo/1) 在我们套件的228个任务中，只有5个估计耗时16小时以上，使得这一范围的测量不如任务覆盖更好的范围稳定。因此，我们不会对使用当前套件测量超过16小时的模型强调精确估计。[](https://x.com/METR_Evals/status/2052896623852929510/photo/1) 我们相信这个任务套件仍然可以区分出比当前已公开的最先进模型能力更强的模型。但我们认为这一范围的测量不够稳健，无法进行精确的定量比较或推论。原则上，时间跨度方法允许我们通过添加更长的任务来测量更高能力的模型，我们正在开发更新的方法。但这些方法仍在开发中；目前，我们建议对近期的时间跨度数据谨慎解读。"

查看原文

METR评估了Claude Mythos早期版本

相似文章

@liu8in: 测试 Mythos 两小时 - 目前最好的代码到动作大模型，Claude Code + Fable 5 一次性生成了这个 @HyperFrames_ 启动模板

Anthropic 为 Claude Code 和 Claude Security 准备 Mythos 1（2 分钟阅读）

2026年4月29日科学评估Claude的生物信息学研究能力：基于BioMysteryBench

@AnthropicAI: 纠正：Claude Opus 4的约3倍平均加速时间点为2025年5月，而非2024年5月。这项评估自……

Claude Mythos/Fable 5 基准测试

提交意见反馈