Dario 与 Dwarkesh:看着 Dwarkesh 表现得如此错误,让人尴尬得脚趾抠地

Reddit r/ArtificialInteligence 新闻

摘要

Dario Amodei 在采访中提出,人工智能的指数级增长阶段即将结束,预测在数年内可验证任务的高置信度结果,并回应了对缩放定律和强化学习的质疑。

看看 Spotify 和 YouTube 上的评论,我真不明白为什么有人称 Dwarkesh 是一位优秀的采访者。我以前从未听说过他,但他的问题非常模糊,他的反驳更是错误得让我感到尴尬。我不知道 Dwarkesh 是如何邀请到这么多大牌嘉宾的,但他显然对自己谈论的内容一无所知,只是在复述他在 Twitter 或 X 上看到的只言片语。我在大型科技公司工作,我可以告诉你,Dario 所说的每句话都完全正确。如果你有幸请到像 Dario 这样的嘉宾,你应该认真倾听,而不是提出一些扭曲到几乎不合逻辑的问题,或者基本上是在告诉对方他在撒谎。 Dwarkesh 似乎认定 Dario 只是一个市场营销人员。伙计,Dario 创立并领导着历史上最具变革性的公司。听听他在说什么。他不是在胡编乱造。就像他说的:他们面临的将业务扩大十倍的经济压力如此巨大,以至于根本没有时间弄虚作假。弄虚作假或许能帮你达到 10 亿美元的年度经常性收入(ARR),没错。但这无法帮你实现可持续的 1000 亿美元 ARR,而 Anthropic 将在明年达到这一目标。更不用说 1.2 万亿美元的估值了。这只有当这些公司展现出真实成果,并且分析师也看到真实成果时才会出现。 Dwarkesh 给人的感觉就像是一个只活在网络上、脱离现实世界的人,他不认真倾听,反而基于那些批评人工智能的点击诱饵文章进行反驳。一个有力的例子是他对扩散(diffusion)的反驳。显然,一个新模型的出现需要时间才能渗透到整个经济体中。这是一种看待事物的优雅方式。一个新模型具备新能力,现在它颠覆的行业和职业数量增加了。但这些变化渗透到市场可能需要数年时间。然而,随着我们向人工智能经济转型,这种渗透速度会越来越快。另一个例子是他对“我没看到任何新功能”的反驳。什么鬼?真的吗?你最近几个月有没有用 PowerPoint 做过演示?简直像魔法一样。而且:大型科技公司根本不在用户界面(UI)上投入!!!!商业应用的 UI 是过时技术。他们正在投资最小可行产品(MVP)服务器来取代 UI,这样就不再需要人类与其交互,而是由其他 AI 代理交互。这一切正在以惊人的速度发生,但需要时间。很可能再需要一年才能看到巨大变化,因为……扩散!!!! 我只是想在这里发泄一下,因为 Dwarkesh 显得如此无知,有时甚至无法倾听,或者甚至问不出一个合乎逻辑的问题。然而,我知道这个子版块里许多人也持有 Dwarkesh 对 AI 的看法,并会给出类似的反驳。伙计们,Dario 绝对不仅仅是一个推销员。这套技术是行之有效的。Dario 清楚自己在谈论什么。他是地球上在该领域最有见识的人之一。听听他的话。他来这里是想分享见解,结果却基本上被指控是个骗子。恕我直言,这简直令人难以忍受。
查看原文
查看缓存全文

缓存时间: 2026/05/10 08:18

TL;DR:Dario Amodei 认为,我们正处于人工智能指数级增长阶段的尾声。他预测,在可验证的任务上,我们将在未来几年内以高置信度实现重大突破,同时他也回应了关于缩放定律、强化学习,以及代码生成与实际软件工程生产力之间区别的各种质疑。 ## 指数级增长的终结 当被问及过去三年中最大的变化时,Dario Amodei 指出,底层的技术轨迹在很大程度上符合他的预期,模型能力已从“聪明的高中生”演变为能够进行博士级研究的专业人士。然而,最令人惊讶的发展是,公众未能意识到这种指数级增长已接近其终点。尽管政治和文化领域的辩论仍在继续,但技术现实是,行业正接近这一快速扩展阶段的尾声。 ## “大规模计算团块”假说 关于当前的缩放状态,Amodei 坚持他在 2017 年提出的核心假设,这些假设概述在他的文件《大规模计算团块假说》(The Big Blob of Compute Hypothesis)中。这一假说与 Rich Sutton 的“苦涩教训”(Bitter Lesson)相一致,认为巧妙的技巧不如以下基本因素重要: 1. 原始算力的可用性。 2. 数据的数量。 3. 数据的质量与分布(广泛分布是关键)。 4. 训练时长。 5. 无限可扩展的目标函数(预训练损失或强化学习奖励)。 6. 用于数值稳定的归一化/条件化。 Amodei 观察到,虽然预训练的缩放定律已广为人知,但强化学习(RL)现在也表现出类似的线性对数改进。这种趋势不仅在 AIME 等数学竞赛中可见,而且在各种强化学习任务中都有体现。机制保持一致:无论方法是预训练还是强化学习,增加算力与数据都会带来能力提升。 ## 回应“苦涩教训”的批评 采访者 Dwarkesh Patel 基于 Rich Sutton 的观点提出了一个担忧:如果人类学习是智能的核心,为什么模型需要数十亿美元的数据和定制的强化学习环境来学习使用 Excel 或网页浏览器等基本技能?这表明缺乏核心的人类类学习算法,暗示我们可能正在错误地缩放事物。如果通用人工智能(AGI)涉及即时学习,为何还要强调强化学习的缩放? Amodei 认为这混淆了不同的概念。他将强化学习与预训练之争视为“红鲱鱼”(无关紧要的误导)。从 GPT-1(在狭窄的同人小说数据集上训练)到 GPT-2(在广泛的互联网数据上训练)的转变表明,泛化需要接触广泛的任务分布,而不仅仅是特定技能。同样,强化学习也正从狭窄任务(数学竞赛)转向更广泛的任务(代码、各种任务),以实现泛化。 ## 进化与学习:一种光谱类比 Amodei 承认样本效率是一个真正的谜题:人类不会看到数万亿个令牌,但模型需要大规模的预训练。他提出,大型语言模型(LLM)并不直接映射到人类学习,而是存在于人类进化与即时学习之间的光谱上。 * **进化:** 为人类提供硬编码的先验知识;LLM 从随机权重(“白板”)开始。 * **长期学习:** 类似于预训练/强化学习。 * **短期/即时学习:** 类似于上下文内学习(in-context learning)。 虽然与人类的即时学习相比,预训练在样本效率上较低,但模型在长上下文内的适应性非常有效。因此,巨大的训练努力并非为了教授使用 API 等特定技能,而是为了达到泛化的临界点,这类似于 GPT-2 突然获得在未见过数据模式上执行线性回归的能力。 ## AGI 的时间线与置信度 关于通用人工智能(AGI)的时间线,Amodei 区分了强主张和弱主张。2019 年,他认为 AGI 的出现有 50/50 的可能性。今天,他给予 **90% 的置信度**,认为我们将在十年内实现“数据中心的天才级国家”。他将置信度上限设定在 90-95%,以考虑到地缘政治不稳定(例如台湾冲突)或供应链中断等不可减少的不确定性。 他对 **可验证任务**(如编程)特别有信心,预测这些任务将在一两年内得到解决,除非发生灾难性外部事件。不确定性主要围绕 **不可验证任务**,例如规划火星任务、做出基础性科学发现(如 CRISPR)或撰写小说。然而,Amodei 强调,我们已经看到了从可验证领域到不可验证领域的实质性泛化,这驳斥了模型仅限于具有客观奖励任务的观点。 ## 软件工程:代码行数与生产力 讨论的一大重点聚焦于软件工程(SWE)。Amodei 澄清说,他的预测常常被误解。他曾表示,人工智能将在几个月内编写 90% 的代码行数,这在某些环境中已经发生。然而,这是一个较弱的指标。 更相关的光谱涉及 **生产力和任务完成度**: 1. **90% 的代码行数由 AI 编写:** 已经在发生。 2. **90% 的端到端 SWE 任务由 AI 完成:** 这包括编译、环境设置、测试和文档。Amodei 认为这即将到来。 3. **100% 的当前 SWE 任务由 AI 完成:** 即使实现,这也并不意味着软件工程师将失业。他们可能会转向更高级的管理或新角色。 4. **对软件工程师的需求减少 90%:** Amodei 认为这是合理的,但指出这只是更广泛光谱的一部分。 这一区别至关重要:生成代码行数并不等同于交付软件功能。虽然模型已经擅长编写注释和设计文档,但真正的目标不仅仅是代码生成,而是整个开发生命周期的自动化。Amodei 断言,通往 AGI 的道路是在这一光谱上填补各种能力,而不是从狭窄智能到通用智能的二进制切换。

相似文章

一张图看懂AI现状

Reddit r/artificial

一位新人观察到,AI讨论被“末日论”与“吹捧论”两极分化,质疑是否有人真正投入用户体验与小型模型系统设计,而非一味追求规模。

试图彻底理解AI到底有多快

Reddit r/singularity

一篇个人反思,质疑AI对现实世界产生影响的真实速度,认为官僚体系、民主制度与物理世界的惯性会延缓可见变化,尽管虚拟层面的进展飞快。

请少点“类人”AI智能体

Hacker News Top

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。