@AlexGDimakis: 我对这项研究非常兴奋:我们展示了两个结果:1. 如果只进行随机采样(即独立尝试解决一个问题多次……
摘要
这项研究比较了AI编码智能体(如Claude-Code和Codex)与人类专家程序员在长期任务上的表现,结果表明由于持续学习,人类的表现呈超线性增长,而智能体则趋于平稳,这突显了当前AI在扩展问题解决方面的关键局限性。
查看缓存全文
缓存时间: 2026/06/17 03:47
我对这项研究感到非常兴奋:我们展示了两个要点:
- 如果仅仅做随机采样(即独立尝试解决一个问题 k 次,并保留最佳结果),你的 ELO 会随 log(测试时计算量) 线性增长。像 Claude-Code 和 Codex 这样的智能体在几小时后就是如此缩放。
- 我们将人类专业编码员与编码智能体在相同任务(来自 AtCoder Heuristic Contest)上进行对比。激动人心的发现是,人类的缩放是超线性的。这证明了人类在解决问题时进行了持续学习! 也就是说,他们在尝试解决编码问题时会学到更多,相较于无记忆的随机尝试,其缩放本质上是更优的。
这为很多人的长期感受提供了实证证据:除非我们解决了持续学习问题,否则在需要多天完成的任务上将无法超越人类。当前的编码智能体无法做到这一点。
这是 Claude Code,所以我可以为所欲为。但它不会这样做。
这是简单的证明:假设任务性能服从均值为 0、方差为 1 的高斯分布。采样 k 次。随机采样就是从 k 次尝试中取最大性能值。ELO 可通过 k1 次尝试战胜 k2 次尝试的概率来计算,即 k1 个高斯分布的最大值大于 k2 个高斯分布的最大值。ELO(k) = 常数 + log(k)
相似文章
@AnthropicAI:我们的最新经济研究引入了一个框架,用于跟踪Claude Code的扩展情况。谁在使用Claude Code,以及…
Anthropic的最新经济研究分析了约40万次Claude Code会话,发现对于成功的代理编码,领域专业知识比编码技能更重要,并且任务价值在七个月内增加了约25%。
AI编程代理可复现社会科学发现
本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。
有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳?
对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思,认为当前代理擅长结构化任务但在不可预测条件下会失败,并指出近期AI角色将主要集中于带人类监督的窄范围自动化。
@MaximeRivest: 只有当愿意接受可能无法完全理解它们创建的过度复杂的系统时,编码代理才能加速我们的工作...
本文讨论了AI编码代理如何要求工程师接受他们可能无法完全理解所创建的复杂系统,并借鉴了自然资源管理等其他领域的经验。
@techwith_ram: https://x.com/techwith_ram/status/2064925285003542820
探讨了AI编程中从人类在环到自主代理循环的转变,其中代理自我提示并迭代,讨论了减少人类控制的前景与隐藏成本。