@AnthropicAI:AI 研究是一系列面向下一步的决策。我们分析了人类研究者走错方向的情景,向 Claude 展示到该节点的会话,并询问它接下来该怎么做。

X AI KOLs 模型

摘要

Anthropic 的 Mythos Preview 模型在纠正错误决策方面的表现优于人类研究者,正确率高达 64%,相比 2024 年的 22% 有显著提升,展示了 Claude 在科研辅助方面不断进步的能力。

AI 研究是一连串关于下一步的决策。我们研究了人类研究者走错方向的会话,向 Claude 展示到该节点的记录,并询问它下一步该如何行动。Mythos Preview 有 64% 的情况下比人类做得更好——而 2024 年这一比例仅为 22%。
查看原文

相似文章

@AnthropicAI:每次发布新模型时,我们都会运行相同的测试:给模型一段训练小型AI模型的代码,要求新模型对其进行加速。

X AI KOLs

Anthropic 分享了内部基准测试结果,展示了AI编码能力的显著提升:2024年5月,Claude Opus 4 在机器学习代码优化任务上平均加速约3倍;而今年4月发布的新模型 Mythos Preview 达到了约52倍加速,相比之下,一位熟练人类工程师需要4-8小时才能实现4倍加速。

Anthropic 新模型一个月内发现超一万个安全漏洞

Reddit r/ArtificialInteligence

Anthropic 的新 AI 模型 Claude Mythos 在一个月内识别出全球系统软件中超过一万个高危和严重安全漏洞,其误报率优于人类测试人员,显著推动了 AI 驱动的网络安全。