@MindfulReturn: 今天看到黄碧薇教授 @huang_biwei 的访谈，看到他们新一轮融资的消息！了解到 Aether AI 的方案，多看了几眼他们的方向之后，我说说我看法： AI 的下一个范式：不是更大的模型，是因果关系。一、相关性天花板：为什么画面很…

X AI KOLs Timeline 2026/06/18 04:45 新闻

causal-world-models aether-ai causality ai-paradigm physical-ai research-analysis

摘要

文章深度分析Aether AI（原识之智）提出的因果世界模型（CWM），认为AI下一个范式将从相关性转向因果关系，并讨论了其理论基础、技术架构及对视频生成和具身智能领域的潜在影响。

今天看到黄碧薇教授 @huang_biwei 的访谈，看到他们新一轮融资的消息！了解到 Aether AI 的方案，多看了几眼他们的方向之后，我说说我看法： AI 的下一个范式：不是更大的模型，是因果关系。一、相关性天花板：为什么画面很美，物理很假先看三组数据。第一组：视频生成。2025 年 12 月一篇论文测了当前最强的视频生成模型，发现它们生成的"重力"只有 1.81 m/s²，相当于地球重力的 18%，跟月球差不多。同一模型生成的两个物体从同一高度落下，落地时间不一样。伽利略在比萨斜塔上想证明的事，这些模型到现在都没学会。第二组：具身智能。斯坦福 AI Index 2026 报告给了一组数字：人形机器人在仿真里成功率 89.4%，在真实世界里 12%。77 个百分点的鸿沟。What-If World 基准测试了 9 个 SOTA 世界模型，让它们生成"对场景做一个物理干预后的视频"：比如改变物体质量、摩擦系数、光照方向。结果没有一个模型超过 52% 的配对得分，开源模型集中在 28%。第三组：因果推理。HOCA-Bench 把 AI 视频的失败分成两类：本体论异常（物体凭空消失、颜色闪烁）和因果异常（重力方向错、碰撞穿模、浮力反了）。视频理解模型在后一类上的得分比前一类低了 20 个百分点以上。模型认得出"猫在用筷子"很奇怪，但认不出"石头浮在水面上"违反物理。因为它学的是统计模式，不是物理规则。这三组数据指向同一个问题。学术界叫它 causal confusion，因果混淆。今天的 AI 学的是相关性。给它足够多的数据，它学会预测下一个词、下一张图、下一段视频。但它不知道为什么。你让它生成"玻璃杯掉在大理石地面上"，它见过类似画面，就生成类似画面。但它没理解重力、硬度、碰撞力学。所以碎片往天上飞。这在工程上有一个很精确的描述：模型的输出取决于干预的视觉显著性，而非物理可计算性。翻译成人话：它不是看物理规律对不对，是看画面"像不像"训练数据里见过的东西。把红色方块放进左箱子的机器人，换成蓝色方块就懵了。桌子高度调高 1cm，之前学会的抓取直接报废。这不是训练数据不够，是学到的东西停在像素层面，没有上升到"表面接触"这个因果概念。背题库和懂原理是两码事。二、四跳：AI 范式的进化路线黄碧薇在 CVPR 2026 的主题演讲里把 AI 范式拆成了四个阶段。第一跳：小模型 × 相关性 —— 已过去第二跳：小模型 × 因果 —— 学术储备第三跳：大模型 × 相关性 —— 现在我们在这里第四跳：大模型 × 因果 —— 下一站我们现在在第三跳。GPT、Claude、Sora、Veo，本质上都是大模型 × 相关性。它们把互联网上的文本、图片、视频压缩进几千亿个参数里，学会了一个超级复杂的条件概率分布。问题是，Ilya Sutskever 自己已经在 NeurIPS 上宣布预训练时代即将结束。他的原话："数据是 AI 的化石燃料。我们只有一个互联网。数据不会再增长了。我们已经到了峰值数据。" 不是 Scaling Law 失效了。是 scale 的对象需要换。这就引出了黄碧薇在演讲里最核心的那句话： "压缩即智能不完整。应该是结构化压缩即智能。" 暴力堆数据压缩出相关性，跟从同样的数据里抽取因果结构，斜率差好几倍。三、因果世界模型到底做了什么不同的事 Aether AI 提出的因果世界模型（Causal World Model, CWM），和今天的视频生成模型、世界模型，底层逻辑不一样。黄碧薇给了三个硬性标准：第一，学习因果特征表示。今天的模型从原始数据里学到的是"什么和什么同时出现"。因果世界模型要学的是"什么导致了什么"：从像素里恢复可解释的潜在因子。物体质量、表面摩擦、重力方向、碰撞弹性。这些不是标签，是模型自己从数据里分离出来的因果变量。第二，理解因果结构。不止知道"杯子"和"碎片"有关联，而是知道"杯子掉落→撞击地面→应力超过材料强度→碎裂→碎片遵循动量守恒飞溅"。这是一个因果图，不是一张像素图。跨层级，从宏观的"杯子碎了"到微观的"玻璃裂纹扩展"，模型都要能映射。第三，捕捉因果动态。世界不是静态的。同样的杯子，落在大理石上会碎，落在地毯上不会。今天的模型要分别见过这两种场景才能生成。因果世界模型不需要，它知道地毯吸收了冲击力，所以因果链在"撞击"环节就断了，后续的"碎裂"和"飞溅"不会发生。这就是物理世界的推理。他们设计了一个四层架构来支撑这套逻辑： System Layer —— 因果驱动的智能体系统，做决策和规划 Foundation Model Layer —— 因果世界模型做核心理解与预测 Neural Architecture Layer —— 受大脑功能特化启发的模块化设计 Infrastructure / Transformer Layer —— 改造的 Transformer，在 token 级别注入因果依赖从底层 token 到顶层决策，因果不是外挂的，是贯穿的。四、谁在做这件事讲一下人。黄碧薇，CMU 博士（2022 年毕业），导师是张坤（Kun Zhang）和 Clark Glymour。张坤是因果发现领域的核心人物，Glymour 是 1989 年和 Spirtes 一起开山的老前辈。这条学术脉络，值得说清楚。1989 年，Glymour 和 Spirtes 发表因果发现算法的奠基性工作。之后 37 年，这个学派做的事情很纯粹：让机器从观测数据里自己发现因果关系，而不是等人喂给它。张坤团队开发的 Causal-Learn 是因果发现领域最主流的开源 Python 库，黄碧薇是核心作者。她拿了 2021 年的 Apple Scholar，在 UCSD 的 Halıcıoğlu 数据科学研究所做助理教授。2025 年出来创业，公司注册在上海，叫「原识之智」。名字起得明白，认识本源的智慧。不是半路出家的 AI 创业者。是在因果发现这个方向上做了十年学术积累、带着一整套理论框架和开源工具出来做工程化的人。 2025 年 7 月他们先推了 Causal-Copilot：一个集成了 20 多种因果算法的自主分析智能体，在特定基准上表现超过了 GPT-4o。这是热身。2026 年 6 月 CVPR，黄碧薇正式发布了因果世界模型框架。五、三个预测基于目前的信息，我做三个判断。预测一：18 个月内，因果世界模型会在视频生成的"物理可信度"维度上拉开代差。不是画质更高、帧率更快、分辨率更大。是生成的视频里，杯子掉在地上真的会碎，碎片飞溅的方向真的符合动量守恒，水真的往低处流。不会再有"碎片往天上飞"这种事。这件事一旦发生，那些靠堆数据卷画质的视频生成公司会很难受。因为不是优化不够，是底层范式被绕过去了。预测二：具身智能的 sim2real gap，第一个突破性进展会来自因果表征学习，不是更大的仿真数据。 DexWorldModel 2026 年 4 月刚发了一篇论文：用因果隐式世界模型在物理机器人上实现了零样本 sim-to-real 迁移，超过了在真实数据上微调的基线。这不是偶然。因果表征抓住了"表面接触""重力作用"这些跨域不变的因果变量，而不受像素、光照、纹理这些域特异性噪声的影响。这条路能走通。预测三：Aether AI 的方向如果跑通产品化，估值逻辑不是"又一个 AI 视频公司"，而是基础设施层。黄碧薇在 CVPR 演讲的结尾说了一句很准确的话："因果世界模型是通用世界模型的最后一块拼图。"这话不夸张。大语言模型解决了符号世界的推理。因果世界模型要解决物理世界的推理。两个加在一起，才完整。如果这件事被验证，Aether AI 的位置不会是某个垂直赛道的玩家。它会是新一层的底座。六、一个修正，和一条分界线让我回到开头那句话。 "压缩即智能不完整。应该是结构化压缩即智能。" 我第一次听到这个修正的时候，有一种被点醒的感觉。 "压缩即智能"是这几年 AI 圈最流行的信条之一。它很美，也很对。在相关性范式下，GPT 就是把互联网压缩进参数里，然后你用 prompt 去解压。但黄碧薇的修正告诉你：压缩的方式，比压缩的量更重要。同样的数据，暴力压缩出相关性，和从中抽取因果结构，得到的"智能"不是一个东西。后者每比特数据的斜率更高。这让我想起一个更根本的问题。大语言模型让 AI 学会了预测下一个词。因果世界模型要让 AI 学会理解世界怎么运作。这是两件事。 Aether AI 赌的是第二件。参考来源： Aether AI / 原识之智： http://aetherlabs.ai

查看原文

查看缓存全文

缓存时间: 2026/06/18 18:20

今天看到黄碧薇教授 @huang_biwei 的访谈，看到他们新一轮融资的消息！了解到 Aether AI 的方案，多看了几眼他们的方向之后，我说说我看法：

AI 的下一个范式：不是更大的模型，是因果关系。

一、相关性天花板：为什么画面很美，物理很假

先看三组数据。

第一组：视频生成。2025 年 12 月一篇论文测了当前最强的视频生成模型，发现它们生成的“重力“只有 1.81 m/s²，相当于地球重力的 18%，跟月球差不多。同一模型生成的两个物体从同一高度落下，落地时间不一样。伽利略在比萨斜塔上想证明的事，这些模型到现在都没学会。

第二组：具身智能。斯坦福 AI Index 2026 报告给了一组数字：人形机器人在仿真里成功率 89.4%，在真实世界里 12%。77 个百分点的鸿沟。What-If World 基准测试了 9 个 SOTA 世界模型，让它们生成“对场景做一个物理干预后的视频“：比如改变物体质量、摩擦系数、光照方向。结果没有一个模型超过 52% 的配对得分，开源模型集中在 28%。

第三组：因果推理。HOCA-Bench 把 AI 视频的失败分成两类：本体论异常（物体凭空消失、颜色闪烁）和因果异常（重力方向错、碰撞穿模、浮力反了）。视频理解模型在后一类上的得分比前一类低了 20 个百分点以上。模型认得出“猫在用筷子“很奇怪，但认不出“石头浮在水面上“违反物理。因为它学的是统计模式，不是物理规则。

这三组数据指向同一个问题。学术界叫它 causal confusion，因果混淆。

今天的 AI 学的是相关性。给它足够多的数据，它学会预测下一个词、下一张图、下一段视频。但它不知道为什么。你让它生成“玻璃杯掉在大理石地面上“，它见过类似画面，就生成类似画面。但它没理解重力、硬度、碰撞力学。所以碎片往天上飞。

这在工程上有一个很精确的描述：模型的输出取决于干预的视觉显著性，而非物理可计算性。翻译成人话：它不是看物理规律对不对，是看画面“像不像“训练数据里见过的东西。

把红色方块放进左箱子的机器人，换成蓝色方块就懵了。桌子高度调高 1cm，之前学会的抓取直接报废。这不是训练数据不够，是学到的东西停在像素层面，没有上升到“表面接触“这个因果概念。

背题库和懂原理是两码事。

二、四跳：AI 范式的进化路线

黄碧薇在 CVPR 2026 的主题演讲里把 AI 范式拆成了四个阶段。

第一跳：小模型 × 相关性 —— 已过去第二跳：小模型 × 因果 —— 学术储备第三跳：大模型 × 相关性 —— 现在我们在这里第四跳：大模型 × 因果 —— 下一站

我们现在在第三跳。GPT、Claude、Sora、Veo，本质上都是大模型 × 相关性。它们把互联网上的文本、图片、视频压缩进几千亿个参数里，学会了一个超级复杂的条件概率分布。

问题是，Ilya Sutskever 自己已经在 NeurIPS 上宣布预训练时代即将结束。他的原话：“数据是 AI 的化石燃料。我们只有一个互联网。数据不会再增长了。我们已经到了峰值数据。”

不是 Scaling Law 失效了。是 scale 的对象需要换。

这就引出了黄碧薇在演讲里最核心的那句话：

“压缩即智能不完整。应该是结构化压缩即智能。”

暴力堆数据压缩出相关性，跟从同样的数据里抽取因果结构，斜率差好几倍。

三、因果世界模型到底做了什么不同的事

Aether AI 提出的因果世界模型（Causal World Model, CWM），和今天的视频生成模型、世界模型，底层逻辑不一样。黄碧薇给了三个硬性标准：

第一，学习因果特征表示。今天的模型从原始数据里学到的是“什么和什么同时出现“。因果世界模型要学的是“什么导致了什么“：从像素里恢复可解释的潜在因子。物体质量、表面摩擦、重力方向、碰撞弹性。这些不是标签，是模型自己从数据里分离出来的因果变量。

第二，理解因果结构。不止知道“杯子“和“碎片“有关联，而是知道“杯子掉落→撞击地面→应力超过材料强度→碎裂→碎片遵循动量守恒飞溅“。这是一个因果图，不是一张像素图。跨层级，从宏观的“杯子碎了“到微观的“玻璃裂纹扩展“，模型都要能映射。

第三，捕捉因果动态。世界不是静态的。同样的杯子，落在大理石上会碎，落在地毯上不会。今天的模型要分别见过这两种场景才能生成。因果世界模型不需要，它知道地毯吸收了冲击力，所以因果链在“撞击“环节就断了，后续的“碎裂“和“飞溅“不会发生。

这就是物理世界的推理。

他们设计了一个四层架构来支撑这套逻辑：

System Layer —— 因果驱动的智能体系统，做决策和规划 Foundation Model Layer —— 因果世界模型做核心理解与预测 Neural Architecture Layer —— 受大脑功能特化启发的模块化设计 Infrastructure / Transformer Layer —— 改造的 Transformer，在 token 级别注入因果依赖

从底层 token 到顶层决策，因果不是外挂的，是贯穿的。

四、谁在做这件事

讲一下人。

黄碧薇，CMU 博士（2022 年毕业），导师是张坤（Kun Zhang）和 Clark Glymour。张坤是因果发现领域的核心人物，Glymour 是 1989 年和 Spirtes 一起开山的老前辈。

这条学术脉络，值得说清楚。1989 年，Glymour 和 Spirtes 发表因果发现算法的奠基性工作。之后 37 年，这个学派做的事情很纯粹：让机器从观测数据里自己发现因果关系，而不是等人喂给它。张坤团队开发的 Causal-Learn 是因果发现领域最主流的开源 Python 库，黄碧薇是核心作者。

她拿了 2021 年的 Apple Scholar，在 UCSD 的 Halıcıoğlu 数据科学研究所做助理教授。2025 年出来创业，公司注册在上海，叫「原识之智」。名字起得明白，认识本源的智慧。

不是半路出家的 AI 创业者。是在因果发现这个方向上做了十年学术积累、带着一整套理论框架和开源工具出来做工程化的人。

2025 年 7 月他们先推了 Causal-Copilot：一个集成了 20 多种因果算法的自主分析智能体，在特定基准上表现超过了 GPT-4o。这是热身。2026 年 6 月 CVPR，黄碧薇正式发布了因果世界模型框架。

五、三个预测

基于目前的信息，我做三个判断。

预测一：18 个月内，因果世界模型会在视频生成的“物理可信度“维度上拉开代差。

不是画质更高、帧率更快、分辨率更大。是生成的视频里，杯子掉在地上真的会碎，碎片飞溅的方向真的符合动量守恒，水真的往低处流。不会再有“碎片往天上飞“这种事。

这件事一旦发生，那些靠堆数据卷画质的视频生成公司会很难受。因为不是优化不够，是底层范式被绕过去了。

预测二：具身智能的 sim2real gap，第一个突破性进展会来自因果表征学习，不是更大的仿真数据。

DexWorldModel 2026 年 4 月刚发了一篇论文：用因果隐式世界模型在物理机器人上实现了零样本 sim-to-real 迁移，超过了在真实数据上微调的基线。这不是偶然。因果表征抓住了“表面接触““重力作用“这些跨域不变的因果变量，而不受像素、光照、纹理这些域特异性噪声的影响。这条路能走通。

预测三：Aether AI 的方向如果跑通产品化，估值逻辑不是“又一个 AI 视频公司“，而是基础设施层。

黄碧薇在 CVPR 演讲的结尾说了一句很准确的话：“因果世界模型是通用世界模型的最后一块拼图。“这话不夸张。

大语言模型解决了符号世界的推理。因果世界模型要解决物理世界的推理。两个加在一起，才完整。如果这件事被验证，Aether AI 的位置不会是某个垂直赛道的玩家。它会是新一层的底座。

六、一个修正，和一条分界线

让我回到开头那句话。

“压缩即智能不完整。应该是结构化压缩即智能。”

我第一次听到这个修正的时候，有一种被点醒的感觉。

“压缩即智能“是这几年 AI 圈最流行的信条之一。它很美，也很对。在相关性范式下，GPT 就是把互联网压缩进参数里，然后你用 prompt 去解压。

但黄碧薇的修正告诉你：压缩的方式，比压缩的量更重要。同样的数据，暴力压缩出相关性，和从中抽取因果结构，得到的“智能“不是一个东西。后者每比特数据的斜率更高。

这让我想起一个更根本的问题。

大语言模型让 AI 学会了预测下一个词。因果世界模型要让 AI 学会理解世界怎么运作。

这是两件事。

Aether AI 赌的是第二件。

参考来源： Aether AI / 原识之智： http://aetherlabs.ai

Aether AI — Causal World Models for Real-World Intelligence

Source: https://aetherlabs.ai/ About Blog News Careers ContactManifesto · 2026Aether AI

Aether is building a new class of AI systems that understand mechanisms, reason under intervention, and operate reliably in real-world systems.

Real intelligence requires models of how the world works.

The next AI paradigm will not be built on pattern recognition alone. AI systems can now recognize, generate, imitate, and predict at extraordinary scale. But the most important systems in the world are not passive distributions. Physical environments, biological systems, and scientific experiments respond when we act, perturb, measure, and change them.

Real intelligence requires models of how the world works: what variables matter, how they interact, how interventions change future states, and why outcomes occur. We call these systemscausal world models.

Causal world models move AI beyond passive prediction — toward reasoning about consequences, counterfactuals, and interventions.

They connect observation, latent state, mechanism, action, and outcome — so a system can understand not only what is likely to happen, but what can be changed.

§ 01.5Causal loop

Observation becomes intervention, then new evidence.

The system repeatedly infers structure, tests an action, observes the changed world, and updates the model.

Physical AI is our first proving ground.

Robotics makes the problem concrete. A robot cannot act reliably by recognizing objects alone. It must understand contact, force, friction, support, constraints, affordances — and the physical dynamics that determine how the world changes under action.

Much of today’s robotics AI still maps observations directly to actions. These systems can learn useful behaviors in familiar settings, but they become brittle when objects, environments, timing, or task structures change. In long-horizon tasks, small errors compound; without an internal model of why an action failed, recovery often requires more data, retraining, or manual engineering.

Aether is building thedecision brainfor Physical AI — the intelligence layer between perception and control, where scene understanding becomes physical reasoning, and physical reasoning becomes action.

The same principle extends to scientific discovery.

In biology, medicine, and longevity, progress depends on understanding mechanisms — not just detecting patterns. Aging, for example, is shaped by interacting processes across metabolism, inflammation, cellular senescence, mitochondrial function, epigenetic regulation, immune response, and environment.

A causal world model should help distinguish drivers from markers, predict how interventions propagate through downstream states, and suggest experiments that separate competing explanations.

Across domains, the challenge is the same: discover what changes what, understand why, and use that understanding to decide how to intervene.

The Aether approach.

Aether builds causal world models that connect state, action, mechanism, and outcome. These models discover stable causal structure, simulate possible futures, compare counterfactual alternatives, estimate uncertainty, and update from real-world feedback.

The approach is a loop: infer hidden state from observation; reason about interventions; test the model through action or experiment; and use the gap between expectation and outcome to update the representation.

In Physical AI, this becomes a decision brain for robots. In scientific discovery, it becomes a way to generate hypotheses, design experiments, and uncover mechanisms not visible from observation alone.

The next generation of AI will require both scaleandstructure. Scale provides capacity. Causal structure makes that capacity reliable, reusable, and grounded.

Aether is building AI that does not only predict outcomes, but learns the mechanisms that make reliable intervention possible.

Who We Are

Our founding team are leading experts in causal discovery, causal AI, causal foundation models, causal reinforcement learning, agentic systems, and foundation model training.

Biwei Huang (@huang_biwei): I’ve spent over a decade working on causal discovery and causal AI. A lot of late nights, a lot of papers, and a lot of open questions.

Today we’re putting something into the world. Aether AI has raised $20M to build causal world models that understand mechanisms. We believe the

相似文章

@gkxspace: LLM 大概率只是 AI 大模型的第一站。黄碧薇教授把 AI 范式分成四代：第一代（90年代）：小模型学相关性第二代（2010年）：小模型学因果第三代（现在LLM）：大模型学相关性第四代（下一步）：大模型学因果 30年，模型从小…

X AI KOLs Timeline

黄碧薇教授提出AI范式四代论，认为LLM只是第一站，未来是因果世界模型。Aether AI完成2000万美元融资，致力于构建因果世界模型。

@wanerfu: 顶级人才都在悄然离开 ChatAI，去挑战 Physical AI 了（下一个 OpenAI） · 李飞飞 → World Labs · LeCun → AMI Labs · DeepMind/Stanford/Berkeley 系 → …

X AI KOLs Timeline

顶级AI人才正从语言模型转向物理AI，如李飞飞创立World Labs，LeCun加入AMI Labs，以及Aether AI专注于因果世界模型，旨在构建能理解机制和因果关系的AI系统，应用于机器人和科学发现。

@cjziems: We're going live in 30 minutes, and we'd love to have you join Joined by @dorazhao9 and @Diyi_Yang, I'll be talking abo…

X AI KOLs Timeline

文章介绍了 Augmented Mind 播客关于《对以人为中心的大型语言模型的反思与新方向》论文的直播讨论，强调 AI 发展应从能力基准转向人类繁荣与长期福祉。

@dashen_wang: https://x.com/dashen_wang/status/2065053748746240161

X AI KOLs Timeline

文章深入探讨了Anthropic发布Fable和Mythos模型背后的命名哲学，指出AI的广泛应用仍以修bug等“重构已知”为主，而“创造未知”才是真正稀缺的能力；同时讨论了AI公司开始招聘哲学家的趋势，认为这标志着“为造物立法”的神话时代开启。

@tanzhengmc97: https://x.com/tanzhengmc97/status/2066531753762656730

X AI KOLs Timeline

用通俗易懂的语言解释了大模型的运行原理，包括词向量、Transformer注意力机制、下一个词预测训练以及涌现能力，适合初学者理解AI基础概念。

Aether AI — Causal World Models for Real-World Intelligence

Real intelligence requires models of how the world works.

Observation becomes intervention, then new evidence.

Physical AI is our first proving ground.

The same principle extends to scientific discovery.

The Aether approach.

相似文章

@wanerfu: 顶级人才都在悄然离开 ChatAI，去挑战 Physical AI 了（下一个 OpenAI） · 李飞飞 → World Labs · LeCun → AMI Labs · DeepMind/Stanford/Berkeley 系 → …

@cjziems: We're going live in 30 minutes, and we'd love to have you join Joined by @dorazhao9 and @Diyi_Yang, I'll be talking abo…

@dashen_wang: https://x.com/dashen_wang/status/2065053748746240161

@tanzhengmc97: https://x.com/tanzhengmc97/status/2066531753762656730

提交意见反馈