@AlexGDimakis: 我对这项研究非常兴奋：我们展示了两个结果：1. 如果只进行随机采样（即独立尝试解决一个问题多次……

X AI KOLs Timeline 2026/06/16 22:33 论文

research ai-scaling coding-agents human-performance continual-learning comparative-study long-horizon

摘要

这项研究比较了AI编码智能体（如Claude-Code和Codex）与人类专家程序员在长期任务上的表现，结果表明由于持续学习，人类的表现呈超线性增长，而智能体则趋于平稳，这突显了当前AI在扩展问题解决方面的关键局限性。

我对这项研究非常兴奋：我们展示了两个结果： 1. 如果只进行随机采样（即独立尝试解决一个问题k次，并保留最佳结果），那么你的ELO分数将与log（测试时计算量）呈线性关系。像Claude-Code和Codex这样的智能体在几小时后就会呈现这种缩放。 2. 我们将人类专家程序员与编码智能体在同一任务（来自AtCoder Heuristic Contest）上进行比较。令人兴奋的发现是，人类的表现呈超线性增长。这证明了人类在解决问题过程中会进行持续学习！也就是说，他们对自己试图解决的编程问题有了更深入的了解，并且相比于无记忆地随机尝试，他们的缩放从根本上更好。这是实证证据，支持了我们很多人长期以来的一种感受：除非我们解决了持续学习问题，否则在需要多日完成的任务上，我们将无法超越人类。当前的编码智能体无法做到这一点。

查看原文

查看缓存全文

缓存时间: 2026/06/17 03:47

我对这项研究感到非常兴奋：我们展示了两个要点：

如果仅仅做随机采样（即独立尝试解决一个问题 k 次，并保留最佳结果），你的 ELO 会随 log(测试时计算量) 线性增长。像 Claude-Code 和 Codex 这样的智能体在几小时后就是如此缩放。
我们将人类专业编码员与编码智能体在相同任务（来自 AtCoder Heuristic Contest）上进行对比。激动人心的发现是，人类的缩放是超线性的。这证明了人类在解决问题时进行了持续学习！也就是说，他们在尝试解决编码问题时会学到更多，相较于无记忆的随机尝试，其缩放本质上是更优的。

这为很多人的长期感受提供了实证证据：除非我们解决了持续学习问题，否则在需要多天完成的任务上将无法超越人类。当前的编码智能体无法做到这一点。

这是 Claude Code，所以我可以为所欲为。但它不会这样做。

这是简单的证明：假设任务性能服从均值为 0、方差为 1 的高斯分布。采样 k 次。随机采样就是从 k 次尝试中取最大性能值。ELO 可通过 k1 次尝试战胜 k2 次尝试的概率来计算，即 k1 个高斯分布的最大值大于 k2 个高斯分布的最大值。ELO(k) = 常数 + log(k)

@AlexGDimakis: 我对这项研究非常兴奋：我们展示了两个结果：1. 如果只进行随机采样（即独立尝试解决一个问题多次……

相似文章

@AnthropicAI：我们的最新经济研究引入了一个框架，用于跟踪Claude Code的扩展情况。谁在使用Claude Code，以及…

AI编程代理可复现社会科学发现

有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳？

@MaximeRivest: 只有当愿意接受可能无法完全理解它们创建的过度复杂的系统时，编码代理才能加速我们的工作...

@techwith_ram: https://x.com/techwith_ram/status/2064925285003542820

提交意见反馈