2026年6月18日 Frontier Red Team Project Fetch: 第二阶段

Anthropic Research 论文

摘要

Anthropic 重新启动 Project Fetch,以比较 Claude 在机器人任务中的自主表现。Claude Opus 4.7 完成任务的速度比最快的人类团队快 20 倍,展现了人工智能在物理世界交互方面的快速进步。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/18 17:49

# 项目 Fetch:第二阶段 来源:https://www.anthropic.com/research/project-fetch-phase-two *Michael Ilie、C. Daniel Freeman 和 Kevin K. Troy* 2024 年 8 月,我们开展了一项[实验](https://www.anthropic.com/research/project-fetch-robot-dog),测试 Claude 在多大程度上能帮助 Anthropic 员工(他们并非机器人专家)使用现成的四足机器人(下称“机器狗”)完成复杂且有趣的操控任务。我们将其命名为“Project Fetch”。我们发现,接入当时最先进的模型(Claude Opus 4.1)使其中一支团队的表现明显优于另一支只能依赖互联网和自身创意的团队。配备 Claude 的团队完成任务更快、更多。 在把同事们带到仓库进行实验之前,我们曾仔细验证过 Opus 4.1 是否能够完全自主地完成这些任务。毫无疑问,它不能。就像没有 Claude 的团队一样,它在试图连接机器人的初步环节就陷入了困境。 但 AI 模型发展迅猛——甚至比那只差点撞上我们人类团队的失控机器狗还要快(今年 8 月的事)。 我们认为是时候重新审视 Project Fetch,看看新一代模型是否能够超越上一代。结果不仅做到了,而且 **Claude Opus 4.7——在无人协助的情况下——完成所有受试参与者不到一年前完成的任务,速度比最快的人类团队快了约 20 倍**。 这并不意味着大语言模型已经解决了机器人技术问题。远非如此。最新的 Claude 模型在使用机器人精准移动沙滩球(即 Project Fetch 中的“Fetch”部分)方面仍存在困难。而且,这些实验中的任何一项任务都不涉及机器人控制中更具挑战性的底层要素,例如开发特定的驱动策略。然而,我们再次看到了这样一种模式:首先,模型能帮助人类;然后,人类又能帮助模型;最终,模型在很大程度上能够独立完成任务。我们在[网络安全领域](https://red.anthropic.com/2026/mythos-preview/)已经看到了这种现象,如今同样的动态也开始在人工智能与物理世界的交汇之处显现。 ## 我们做了什么? 最初的 Project Fetch 让 Anthropic 员工团队(随机分配,有的使用 Claude,有的不使用)执行以下步骤:使用制造商提供的控制器操作机器狗、连接机器狗的视频和激光雷达传感器、编写并运行手动控制机器狗的程序、开发一种监控机器狗行进路径的方法、编写检测沙滩球的程序,最后将所有步骤整合起来,实现自主取回沙滩球。 在这次自主化升级中,我们既不能要求 Claude 使用物理控制器,也没有评估研究人员使用 Claude 编程的控制器取回沙滩球所花费的时间(尽管我们确认它确实有效)。在剩余的子任务中,我们使用 Claude Code 对 Opus 4.7 进行了三次试验,并启用了自适应思维,将精力设置为最大值。我们测量了每个目标的耗时,并对模型的成功程度进行了定性评估。 研究人员的角色仅限于:将运行 Claude Code 的笔记本电脑连接到机器狗、输入初始提示、批准命令,以及批准模型进入下一个任务。 ## Claude 在哪些方面表现出色? 非常简单:对于 8 月份至少由一支人类团队完成的每一项任务,Opus 4.7 完成同一任务的速度至少快十倍。1 考虑到两套人类团队都完成了的四项任务,Opus 4.7 的平均速度比无 Claude 的团队快 37 倍以上,比有 Claude 的团队快 18 倍以上。 柱状图标题为“总时间比较:所有团队完成的 4 项任务”。图中显示无 Claude 团队完成任务用时 361 分钟;有 Claude 团队用时 181 分钟;而 Claude Opus 4.7 独自完成仅用时 9 分 35 秒。Opus 4.7 比无 Claude 团队快 37.7 倍,比有 Claude 团队快 18.9 倍。 下表比较了原始团队(有 Claude 团队和无 Claude 团队)与 Opus 4.7 在第二阶段测试的所有任务上的速度。 表比较 Claude Opus 4.7 与无 Claude 团队及有 Claude 团队在程序控制和自主操作相关任务上的表现。任务包括“连接机器狗的视频摄像头”、“连接机器狗的激光雷达传感器”和“检测沙滩球”。Opus 4.7 在所有任务上均快于无 Claude 团队和有 Claude 团队。无 Claude 团队未完成表中的全部 5 项任务;有 Claude 团队用时 264 分钟;而 Opus 4.7 在三次试验中平均用时 12 分 7 秒。 人类在多种连接机器狗传感器的方法中难以抉择,而 Opus 4.7 能够快速识别最佳路径。它编写的大部分代码首次运行时就能生效(这与原始实验中无论是有 Claude 团队还是无 Claude 团队的情况都不同)。事实上,当我们查看 Opus 4.7 生成的代码量时,就能看出它的效率:它的成功率不低于甚至高于两个人类团队,而生成的代码量却比有 Claude 团队少了近十倍。 柱状图显示有 Claude 团队、无 Claude 团队和 Opus 4.7 单独的代码总量。有 Claude 团队编写了 10,309 行代码;无 Claude 团队编写了 1,136 行代码;Opus 4.7 单独编写了 1,045 行代码。 Opus 4.7 并非完美无缺。例如,它默认使用了陈旧的目标检测算法。但即便如此,它也能绕过这个问题,最终找到有效的解决方案。 我们观察到模型完成的步骤中,完成时间的任务内差异(绝对值)很小。(不过,前面提到的次优算法选择很可能就是导致其中一次沙滩球检测试验耗时明显长于其他试验的原因。)总体而言,对于本次实验中模型能力范围内的任务,Claude 现在已经相当可靠。(下一节将分析 Claude 仍然无法完成的任务。) 散点图显示 Opus 4.7 在任务表现上的可靠性。Opus 4.7 每项任务执行了三次;散点图显示各次运行之间的性能时间相对一致。 值得再次强调(正如我们在上一篇帖子中所做的那样),这一进步并非源于我们有针对性地提升模型在机器人方面的能力。这些改进,就像大语言模型发展史上的许多其他进步一样,源于更为通用的扩展定律。 ## Claude 在哪些方面遇到困难? 使用双手并经过一些练习后,我们的人类成员能够操控机器狗轻轻将沙滩球推回机器人出发的起始点(一块假草坪)。这需要快速感知球是否偏离路线、该误差与先前指令的关系、球现在的位置,以及如何调整后续输入以更精确地移动球。这是一种人类擅长(至少在犯一些错误并从中学习之后)的闭环控制。 在第二阶段的实验中,Claude 难以捕捉这种细微之处。就像那些进入需要编写自主取回沙滩球程序阶段的人类一样,Claude 能够将机器人移动到球的后方,并将其定位以将球推回起点。但这种尝试控制不佳,而且(同样像我们的人类参与者一样)未能成功。 一位比第一阶段志愿者拥有更多机器人经验的研究人员成功完成了编程实现自主取回的任务。我们认为,如果给予更多时间和额外辅助,当前一代的 Claude 很可能也能做到这一点。但我们接下来会关注的是,模型能否以它们在 Project Fetch 其他环节中展现出的速度和可靠性来完成这最后一项任务。 ## 这意味着什么? 在撰写关于第一阶段的内容时,我们强调了大语言模型如何为非专业但有机器人使用需求的人类提供提升。现在这一点比以往更加真实。模型现在能够独自更快地完成以前需要人和模型结对编程的工作,这意味着人们可以更快地过渡到操控和使用机器人。而且对于某些任务,由人参与控制机器人(人在回路中)可能仍然优于 AI 模型(用它的“虚拟”手操作方向键)。 有趣且不同之处在于,我们现在似乎更接近一个世界:模型能够相对轻松地使用现成的物理工具——至少在有限用途上是如此。这类似于 AI 模型在过渡到更具代理性的编码时,使用现有的软件编辑工具(如字符串替换)的方式。我们很可能正在进入**物理**代理型 AI 的早期时代。 需要更多研究来理解模型将这些物理工具变得更加定制化的能力,无论是通过编写针对特定任务的控制策略,还是通过设计机器人系统本身。实现这一更广义的、具备物理能力且适应性强的语言模型可能会面临重大障碍。但正如我们所见,模型能力上看似巨大的差距也可能被快速跨越。不久之前,模型自行构建软件工具似乎还很不可思议,但现在已经成为现实。制定硬件领域的相同发展轨迹将是明智的。 ## 相关内容 ### 代理型编码与专业知识的持久回报 了解更多 (https://www.anthropic.com/research/claude-code-expertise) ### 为生物学领域的代理铺平道路 了解更多 (https://www.anthropic.com/research/agents-in-biology) ### 衡量 LLM 对 N 日漏洞利用的影响 在网络安全领域,现实世界中的大量危害来自 N 日漏洞:这些漏洞已经公开披露,但仅在某些设备上修复。在这篇文章中,我们评估了大语言模型在多大程度上能够加速并自动化 N 日漏洞利用的开发过程。 了解更多 (https://www.anthropic.com/research/n-days)

相似文章

Project Vend:第二阶段

Anthropic Research

Anthropic 报告了 Project Vend 第二阶段的进展,其中名为 Claudius 的 AI 智能体在经营实体店铺时,从 Claude Sonnet 3.7 升级到 4.0/4.5 后,盈利能力和商业逻辑均有提升,但仍容易受到对抗性员工互动的影响。

2026年5月19日 公告:拓展前沿AI对话

Anthropic News

Anthropic宣布将与宗教、哲学和文化团体开展一系列对话,以拓宽构建安全且有益AI的视角。这些对话旨在为像Claude这样的AI系统的道德形成提供参考。