@VincentLogic: 如果 Ilya 判断是对的,那过去几年 AI 行业最坚固的三个共识,可能都错了: Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。 这场被称为“Ilya 消失前最后一次采访”…

X AI KOLs Timeline 新闻

摘要

Ilya Sutskever 在一次深度采访中提出,AI 行业过去几年的三个核心共识可能都是错误的:Scaling 不再是万能、Benchmark 高分不等于真正智能、RL 反而让模型变笨。他认为预训练和 RL 的红利即将耗尽,AI 已重回研究时代,真正的超智能应像天才少年一样具备强大学习能力,而非静态的知识库。

如果 Ilya 判断是对的,那过去几年 AI 行业最坚固的三个共识,可能都错了: Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。 这场被称为“Ilya 消失前最后一次采访”的对话里,他把当前大模型形容成竞赛编程选手:题能做得很难,遇到真实项目却会修一个 Bug、再造两个 Bug,反复循环。 问题可能不是模型不够大,而是奖励机制让它过度追求正确答案,逐渐丢掉常识、直觉和学习能力。 他更激进的判断是: 预训练红利见顶,RL 红利也快耗尽,AI 已经从 Scaling 时代重新退回“研究时代”。 真正的超智能不会是一个下载完毕、什么都知道的成品,而更像一个十五岁的天才:拥有极强的学习能力,然后在现实世界中不断成长。 如果这个方向成立,下一轮 AI 竞争的关键就不再是谁堆的数据和 GPU 更多,而是谁先破解人类为什么只看几个例子,就能学会一件新事。 Ilya 很少说废话,这次却聊了四十多分钟。 值得完整看完。最颠覆你认知的是哪一段?
查看原文
查看缓存全文

缓存时间: 2026/07/02 14:24

如果 Ilya 判断是对的,那过去几年 AI 行业最坚固的三个共识,可能都错了:

Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。

这场被称为“Ilya 消失前最后一次采访”的对话里,他把当前大模型形容成竞赛编程选手:题能做得很难,遇到真实项目却会修一个 Bug、再造两个 Bug,反复循环。

问题可能不是模型不够大,而是奖励机制让它过度追求正确答案,逐渐丢掉常识、直觉和学习能力。

他更激进的判断是:

预训练红利见顶,RL 红利也快耗尽,AI 已经从 Scaling 时代重新退回“研究时代”。

真正的超智能不会是一个下载完毕、什么都知道的成品,而更像一个十五岁的天才:拥有极强的学习能力,然后在现实世界中不断成长。

如果这个方向成立,下一轮 AI 竞争的关键就不再是谁堆的数据和 GPU 更多,而是谁先破解人类为什么只看几个例子,就能学会一件新事。

Ilya 很少说废话,这次却聊了四十多分钟。

值得完整看完。最颠覆你认知的是哪一段?

相似文章

@ba_niu80557: https://x.com/ba_niu80557/status/2068751230667755859

X AI KOLs Timeline

文章探讨了AI模型不断强大如何淘汰那些技能可以被写进提示词的人,强调真正不可替代的价值在于难以编码的默会知识、物理世界的实际操作以及人与人之间的信任关系。作者通过朋友从咨询顾问转型为硬件集成者的例子,说明主动让出易被AI替代的环节、深耕AI触及不到的领域,才能在技术浪潮中生存和发展。

@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释,压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快",是新范式 过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…

X AI KOLs Timeline

本文总结了Karpathy在Sequoia Ascent大会上的核心观点,指出AI是重塑任务流的新范式而非单纯加速工具,通过可验证性与经济价值划分了模型能力的“参差不齐边界”,并预言未来软件将演变为以LLM为逻辑层、传统代码为传感器/执行器的智能体原生架构。

@jakevin7: 做一个预言:AI 时代的下一阶段,会变成 “Infra is all you need”。 现在 AI 生成代码的能力已经很强,但是在可用性和稳定性目前还远远不够。 最近 OpenAI 订阅系统出现了超大bug,会员系统完全炸了。 系统一…

X AI KOLs Following

作者预言AI时代下一阶段将从模型能力转向基础设施能力,强调可复现、可观测、可恢复、安全隔离等infra能力,认为稳定承载AI行为将是竞争关键。

@vista8: https://x.com/vista8/status/2072191315916538039

X AI KOLs Timeline

文章从伽罗瓦的群论故事切入,深入探讨了AI在数学领域的能力边界,区分了“连接闪电”(跨领域连接)和“建造山峰”(创造新框架)两种进展类型,分析了RLVR训练方法的局限性,并提出了“可磨性”概念来解释AI在数学和代码上的快速进步。

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖,一个被行业严重低估的现实。 LLM 的真实能力天花板,远高于当前任何 benchmark 所显示的水平。 原因,是给它的test-time compute太少了。而随着模型…

X AI KOLs Timeline

解读 OpenAI 研究员 Noam Brown 的观点:LLM 的真实能力天花板远高于当前基准测试显示的水平,因为 test-time compute 投入不足,而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战,因为许多危险能力可能只在长时间、高计算预算下才显现。