@AlexGDimakis: 我对这项研究非常兴奋:我们展示了两个结果:1. 如果只进行随机采样(即独立尝试解决一个问题多次……

X AI KOLs Timeline 论文

摘要

这项研究比较了AI编码智能体(如Claude-Code和Codex)与人类专家程序员在长期任务上的表现,结果表明由于持续学习,人类的表现呈超线性增长,而智能体则趋于平稳,这突显了当前AI在扩展问题解决方面的关键局限性。

我对这项研究非常兴奋:我们展示了两个结果: 1. 如果只进行随机采样(即独立尝试解决一个问题k次,并保留最佳结果),那么你的ELO分数将与log(测试时计算量)呈线性关系。像Claude-Code和Codex这样的智能体在几小时后就会呈现这种缩放。 2. 我们将人类专家程序员与编码智能体在同一任务(来自AtCoder Heuristic Contest)上进行比较。令人兴奋的发现是,人类的表现呈超线性增长。这证明了人类在解决问题过程中会进行持续学习! 也就是说,他们对自己试图解决的编程问题有了更深入的了解,并且相比于无记忆地随机尝试,他们的缩放从根本上更好。 这是实证证据,支持了我们很多人长期以来的一种感受:除非我们解决了持续学习问题,否则在需要多日完成的任务上,我们将无法超越人类。当前的编码智能体无法做到这一点。
查看原文
查看缓存全文

缓存时间: 2026/06/17 03:47

我对这项研究感到非常兴奋:我们展示了两个要点:

  1. 如果仅仅做随机采样(即独立尝试解决一个问题 k 次,并保留最佳结果),你的 ELO 会随 log(测试时计算量) 线性增长。像 Claude-Code 和 Codex 这样的智能体在几小时后就是如此缩放。
  2. 我们将人类专业编码员与编码智能体在相同任务(来自 AtCoder Heuristic Contest)上进行对比。激动人心的发现是,人类的缩放是超线性的。这证明了人类在解决问题时进行了持续学习! 也就是说,他们在尝试解决编码问题时会学到更多,相较于无记忆的随机尝试,其缩放本质上是更优的。

这为很多人的长期感受提供了实证证据:除非我们解决了持续学习问题,否则在需要多天完成的任务上将无法超越人类。当前的编码智能体无法做到这一点。

这是 Claude Code,所以我可以为所欲为。但它不会这样做。

这是简单的证明:假设任务性能服从均值为 0、方差为 1 的高斯分布。采样 k 次。随机采样就是从 k 次尝试中取最大性能值。ELO 可通过 k1 次尝试战胜 k2 次尝试的概率来计算,即 k1 个高斯分布的最大值大于 k2 个高斯分布的最大值。ELO(k) = 常数 + log(k)

相似文章

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。