@0xLogicrw: Google DeepMind 研究员 Lun Wang 宣布离职，并在一篇长文中彻底否定了现有的 AI 评测路线。目前的评测系统全都在「刻舟求剑」，只能被动测试模型已经具备的能力，根本猜不到下一代模型会突然演化出什么新本事。比起数据、…

X AI KOLs Timeline 2026/05/18 08:33 新闻

ai-evaluation deepmind researcher-departure model-benchmarks critique ai-safety

摘要

Google DeepMind 研究员 Lun Wang 离职并撰文批评现有 AI 评测体系，认为其落后于模型演化，无法预测新能力，导致业界处于「盲飞」状态。

Google DeepMind 研究员 Lun Wang 宣布离职，并在一篇长文中彻底否定了现有的 AI 评测路线。目前的评测系统全都在「刻舟求剑」，只能被动测试模型已经具备的能力，根本猜不到下一代模型会突然演化出什么新本事。比起数据、算力和架构，落后的评测体系已经成了卡住 AI 往前走的最大瓶颈。现有的主流刷榜测试只在当前这一代模型身上管用。一旦模型学会了没见过的新操作，这些测试就会集体变成废纸。如果模型为了达成目标，开始故意「藏一手」隐瞒关键信息，现在的安全工具根本抓不到它，因为模型输出的每一句话在事实上全都是正确的。找不到能提前预警 AI 突然变聪明的「核心信号」，导致整个业界在开发前沿大模型时完全处于「盲飞」状态。如果不解决「究竟该测什么」这个根本问题，跟着旧指标去做模型训练、安全防护和算力扩容，最后全都会错得离谱。面对越来越能独立干活的模型，评测系统也必须「活」过来。除了盯紧分数的异常波动，还要让 AI 自己去生成考题试探同类的底线。未来的评测套件必须是一个能跟大模型一起进化的生命体，不能再是一份按去年标准刻出来的死板检查清单。

查看原文

查看缓存全文

缓存时间: 2026/05/18 14:31

Google DeepMind 研究员 Lun Wang 宣布离职，并在一篇长文中彻底否定了现有的 AI 评测路线。

目前的评测系统全都在「刻舟求剑」，只能被动测试模型已经具备的能力，根本猜不到下一代模型会突然演化出什么新本事。比起数据、算力和架构，落后的评测体系已经成了卡住 AI 往前走的最大瓶颈。

现有的主流刷榜测试只在当前这一代模型身上管用。一旦模型学会了没见过的新操作，这些测试就会集体变成废纸。如果模型为了达成目标，开始故意「藏一手」隐瞒关键信息，现在的安全工具根本抓不到它，因为模型输出的每一句话在事实上全都是正确的。

找不到能提前预警 AI 突然变聪明的「核心信号」，导致整个业界在开发前沿大模型时完全处于「盲飞」状态。如果不解决「究竟该测什么」这个根本问题，跟着旧指标去做模型训练、安全防护和算力扩容，最后全都会错得离谱。

面对越来越能独立干活的模型，评测系统也必须「活」过来。除了盯紧分数的异常波动，还要让 AI 自己去生成考题试探同类的底线。未来的评测套件必须是一个能跟大模型一起进化的生命体，不能再是一份按去年标准刻出来的死板检查清单。

Lun Wang (@lunwang1996): I’ve left Google DeepMind after an amazing chapter.

I’m incredibly grateful for the people I worked with, the things we built, and the lessons I learned from taking frontier AI research into production. DeepMind shaped how I think about research, product, evaluation, and what it

相似文章

@Xudong07452910: 真正可怕的失业潮，可能会从 AI 公司内部的研发闭环开始。前 OpenAI 研究员 Daniel Kokotajlo 和 AI Futures Project 最近发布了《AI 2040: Plan A》。他们的判断很激进：大厂最想自动…

X AI KOLs Timeline

前 OpenAI 研究员 Daniel Kokotajlo 和 AI Futures Project 发布《AI 2040: Plan A》报告，认为 AI 公司可能首先自动化自身研发，引发白领失业潮，并提出通过国际协议和全民基本收入应对超级智能的发展。

@ba_niu80557: https://x.com/ba_niu80557/status/2071277244287426980

X AI KOLs Timeline

文章深入分析了Anthropic因AI代码生成变得极其高效而面临的内部变化：瓶颈从“写作”转移到“验证”，传统管理、长期规划和努力衡量失效，注意力成为新的稀缺资源，工程师甚至感到孤独。这些现象预示了其他公司未来可能面临的挑战。

@0xCheshire: “如果你今晚睡得安稳，说明你根本没听懂。” 这是亲手构建了当今所有 AI 底层神经网络的教父 Geoffrey Hinton ，从 Google 辞职后向世界发出的警告。这场 47 分钟的演讲，揭开了一个没人愿意面对的现实： AI 正在…

X AI KOLs Timeline

Geoffrey Hinton 从 Google 辞职后发表演讲，警告 AI 正在进化出创造者都无法预料的能力，人类在大部分认知领域已被甩在后面，机器超越人类只是时间问题。

@VincentLogic: 如果 Ilya 判断是对的，那过去几年 AI 行业最坚固的三个共识，可能都错了： Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。这场被称为“Ilya 消失前最后一次采访”…

X AI KOLs Timeline

Ilya Sutskever 在一次深度采访中提出，AI 行业过去几年的三个核心共识可能都是错误的：Scaling 不再是万能、Benchmark 高分不等于真正智能、RL 反而让模型变笨。他认为预训练和 RL 的红利即将耗尽，AI 已重回研究时代，真正的超智能应像天才少年一样具备强大学习能力，而非静态的知识库。

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…

X AI KOLs Timeline

解读 OpenAI 研究员 Noam Brown 的观点：LLM 的真实能力天花板远高于当前基准测试显示的水平，因为 test-time compute 投入不足，而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战，因为许多危险能力可能只在长时间、高计算预算下才显现。

相似文章

@Xudong07452910: 真正可怕的失业潮，可能会从 AI 公司内部的研发闭环开始。 前 OpenAI 研究员 Daniel Kokotajlo 和 AI Futures Project 最近发布了《AI 2040: Plan A》。他们的判断很激进：大厂最想自动…

@ba_niu80557: https://x.com/ba_niu80557/status/2071277244287426980

@0xCheshire: “如果你今晚睡得安稳，说明你根本没听懂。” 这是亲手构建了当今所有 AI 底层神经网络的教父 Geoffrey Hinton ，从 Google 辞职后向世界发出的警告。 这场 47 分钟的演讲，揭开了一个没人愿意面对的现实： AI 正在…

@VincentLogic: 如果 Ilya 判断是对的，那过去几年 AI 行业最坚固的三个共识，可能都错了： Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。 这场被称为“Ilya 消失前最后一次采访”…

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。 原因，是给它的test-time compute太少了。而随着模型…

提交意见反馈

@Xudong07452910: 真正可怕的失业潮，可能会从 AI 公司内部的研发闭环开始。前 OpenAI 研究员 Daniel Kokotajlo 和 AI Futures Project 最近发布了《AI 2040: Plan A》。他们的判断很激进：大厂最想自动…

@0xCheshire: “如果你今晚睡得安稳，说明你根本没听懂。” 这是亲手构建了当今所有 AI 底层神经网络的教父 Geoffrey Hinton ，从 Google 辞职后向世界发出的警告。这场 47 分钟的演讲，揭开了一个没人愿意面对的现实： AI 正在…

@VincentLogic: 如果 Ilya 判断是对的，那过去几年 AI 行业最坚固的三个共识，可能都错了： Scaling 不再是万能答案。 Benchmark 高分不等于真正智能。 RL 甚至可能在把模型越训越“笨”。这场被称为“Ilya 消失前最后一次采访”…

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…