@VincentLogic: 如果 Ilya 判断是对的，那过去几年 AI 行业最坚固的三个共识，可能都错了： Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。这场被称为“Ilya 消失前最后一次采访”…

X AI KOLs Timeline 2026/07/02 08:54 新闻

scaling benchmark reinforcement-learning pre-training intelligence research-era

摘要

Ilya Sutskever 在一次深度采访中提出，AI 行业过去几年的三个核心共识可能都是错误的：Scaling 不再是万能、Benchmark 高分不等于真正智能、RL 反而让模型变笨。他认为预训练和 RL 的红利即将耗尽，AI 已重回研究时代，真正的超智能应像天才少年一样具备强大学习能力，而非静态的知识库。

如果 Ilya 判断是对的，那过去几年 AI 行业最坚固的三个共识，可能都错了： Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。这场被称为“Ilya 消失前最后一次采访”的对话里，他把当前大模型形容成竞赛编程选手：题能做得很难，遇到真实项目却会修一个 Bug、再造两个 Bug，反复循环。问题可能不是模型不够大，而是奖励机制让它过度追求正确答案，逐渐丢掉常识、直觉和学习能力。他更激进的判断是：预训练红利见顶，RL 红利也快耗尽，AI 已经从 Scaling 时代重新退回“研究时代”。真正的超智能不会是一个下载完毕、什么都知道的成品，而更像一个十五岁的天才：拥有极强的学习能力，然后在现实世界中不断成长。如果这个方向成立，下一轮 AI 竞争的关键就不再是谁堆的数据和 GPU 更多，而是谁先破解人类为什么只看几个例子，就能学会一件新事。 Ilya 很少说废话，这次却聊了四十多分钟。值得完整看完。最颠覆你认知的是哪一段？

查看原文

查看缓存全文

缓存时间: 2026/07/02 14:24

如果 Ilya 判断是对的，那过去几年 AI 行业最坚固的三个共识，可能都错了：

Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。

这场被称为“Ilya 消失前最后一次采访”的对话里，他把当前大模型形容成竞赛编程选手：题能做得很难，遇到真实项目却会修一个 Bug、再造两个 Bug，反复循环。

问题可能不是模型不够大，而是奖励机制让它过度追求正确答案，逐渐丢掉常识、直觉和学习能力。

他更激进的判断是：

预训练红利见顶，RL 红利也快耗尽，AI 已经从 Scaling 时代重新退回“研究时代”。

真正的超智能不会是一个下载完毕、什么都知道的成品，而更像一个十五岁的天才：拥有极强的学习能力，然后在现实世界中不断成长。

如果这个方向成立，下一轮 AI 竞争的关键就不再是谁堆的数据和 GPU 更多，而是谁先破解人类为什么只看几个例子，就能学会一件新事。

Ilya 很少说废话，这次却聊了四十多分钟。

值得完整看完。最颠覆你认知的是哪一段？

相似文章

@ba_niu80557: https://x.com/ba_niu80557/status/2068751230667755859

X AI KOLs Timeline

文章探讨了AI模型不断强大如何淘汰那些技能可以被写进提示词的人，强调真正不可替代的价值在于难以编码的默会知识、物理世界的实际操作以及人与人之间的信任关系。作者通过朋友从咨询顾问转型为硬件集成者的例子，说明主动让出易被AI替代的环节、深耕AI触及不到的领域，才能在技术浪潮中生存和发展。

@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释，压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快"，是新范式过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…

X AI KOLs Timeline

本文总结了Karpathy在Sequoia Ascent大会上的核心观点，指出AI是重塑任务流的新范式而非单纯加速工具，通过可验证性与经济价值划分了模型能力的“参差不齐边界”，并预言未来软件将演变为以LLM为逻辑层、传统代码为传感器/执行器的智能体原生架构。

@jakevin7: 做一个预言：AI 时代的下一阶段，会变成 “Infra is all you need”。现在 AI 生成代码的能力已经很强，但是在可用性和稳定性目前还远远不够。最近 OpenAI 订阅系统出现了超大bug，会员系统完全炸了。系统一…

X AI KOLs Following

作者预言AI时代下一阶段将从模型能力转向基础设施能力，强调可复现、可观测、可恢复、安全隔离等infra能力，认为稳定承载AI行为将是竞争关键。

@vista8: https://x.com/vista8/status/2072191315916538039

X AI KOLs Timeline

文章从伽罗瓦的群论故事切入，深入探讨了AI在数学领域的能力边界，区分了“连接闪电”（跨领域连接）和“建造山峰”（创造新框架）两种进展类型，分析了RLVR训练方法的局限性，并提出了“可磨性”概念来解释AI在数学和代码上的快速进步。

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…

X AI KOLs Timeline

解读 OpenAI 研究员 Noam Brown 的观点：LLM 的真实能力天花板远高于当前基准测试显示的水平，因为 test-time compute 投入不足，而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战，因为许多危险能力可能只在长时间、高计算预算下才显现。

相似文章

@ba_niu80557: https://x.com/ba_niu80557/status/2068751230667755859

@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释，压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快"，是新范式 过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…

@jakevin7: 做一个预言：AI 时代的下一阶段，会变成 “Infra is all you need”。 现在 AI 生成代码的能力已经很强，但是在可用性和稳定性目前还远远不够。 最近 OpenAI 订阅系统出现了超大bug，会员系统完全炸了。 系统一…

@vista8: https://x.com/vista8/status/2072191315916538039

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。 原因，是给它的test-time compute太少了。而随着模型…

提交意见反馈

@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释，压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快"，是新范式过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…

@jakevin7: 做一个预言：AI 时代的下一阶段，会变成 “Infra is all you need”。现在 AI 生成代码的能力已经很强，但是在可用性和稳定性目前还远远不够。最近 OpenAI 订阅系统出现了超大bug，会员系统完全炸了。系统一…

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…