数据并不稀缺，稀缺的是你的想象力（8分钟阅读）

TLDR AI 2026/05/29 00:00 新闻

data-scarcity training-data world-models sre proactive-agents neural-computers imagination

摘要

Asuka Zheng认为，关于'训练数据即将耗尽'的恐慌是错位的；真正的稀缺在于收集多样化、长周期数据时的想象力不足，她用自己的SRE替代项目及更广泛的研究趋势说明了这一点。

Asuka Zheng认为，'训练数据即将耗尽'的恐慌未能触及数据市场的真实形态。她讲述了自己的SRE替代项目，该项目训练了两个世界模型，直到停滞不前，因为从首次异常到完全解决的全流程长周期事件轨迹并不作为一个数据集存在。

查看原文

查看缓存全文

缓存时间: 2026/05/29 18:31

Asuka Zheng认为，“训练数据即将枯竭”的恐慌忽略了数据市场的真正形态。她讲述了自己曾参与的SRE替代项目，该项目训练了两个世界模型，直到项目停滞——因为从首次异常到完全解决的全过程、端到端的长时序事件轨迹，作为数据集根本不存在。

数据并不稀缺，稀缺的是你的想象力

我们快没有训练数据了。

不。我们根本还没开始收集。

当我们谈论数据时，我们想到的是推理、代码、音频、图像、机器人。没错，这些是真实的，而且已经创造了财富。但这份清单并非数据的真实形态。它只是我们当前想象力的边界。真正的空间要大得多，大到其中某些数据，我们甚至无法想象它会长成什么样子。

我吃了大亏才明白这一点，然后发现这个规律在我所见的每个角落都得到了印证。

我花了很长时间做SRE，所以一直绕着一个问题打转：大模型能否取代人类的SRE工程师，这样我们就不用半夜被oncall吵醒了？我们真的试过，还为此写了论文。一旦深入下去，我们发现难点并不在于模型本身，而在于环境。你几乎无法模拟一个真实的SRE事故。于是我们想到一个当时觉得很优雅的方案：训练两个世界模型。一个扮演K8s专家，生成命令。另一个扮演K8s环境本身，在特定场景下生成合理的响应。让它们相互博弈，让模型学会在自己构想的世界里操作。

但没成功。

阻碍我们的原因几乎残酷地具体：我们无法获得足够的数据，而且收集到的那些数据质量很差。我们需要那种能捕捉真实K8s集群在整个事故期间的数据——从首次异常到完全解决的每一步，以及集群在每个中间步骤的确切响应。最终我们退而求其次，采用了一个多智能体框架，一个复杂的架构，在数据极少的情况下对模型进行强化学习，结果也很平庸。但我发誓我们差一点就成功了。方向是对的。我们只是错过了那一种数据，然后在论文提交前耗尽了时间。

现在回想起来，我意识到自己已经直接走进了整个新世界的大门。我试图将系统的真实行为拟合进一个模型，而真正稀缺的正是端到端、长时序的数据。不是单个瞬间，而是完整的因果链条。

过去一个月的研究让我确信，这种现象正在各处同时发生。

Thinking Machines Lab 关于交互模型的工作最让我震撼。今年人人都在谈论主动式智能体。我曾试图伪造这种主动性，通过可穿戴设备从外部强行附加。而 Thinking Machines 向我展示了更深层的东西：给模型正确的数据，这种能力就会从它内部自然地生长出来。交互不再是绑在外部的脚手架。模型将其吸收。于是，沉默、打断、视觉世界发生变化的精确瞬间——那些从未被任何数据集记录过的东西——全都变成了你必须训练而且可以训练的数据。

一个更激进的方向来自一篇名为《神经计算机》（Neural Computers）的论文（Meta AI 和 KAUST 团队；Jürgen Schmidhuber 也在作者之列，这很合理，因为他早在1990年就将“世界模型”一词引入机器学习）。他们将计算、内存和 I/O 折叠成一个单一的学习到的运行时状态，然后将其实例化为一个直接输出屏幕帧的视频模型。在命令行界面和图形界面环境中，它根据指令、像素和用户动作生成下一帧。

你现在应该能看到转折了。计算机自身的行为变成了我们可以建模的数据流。 终端的每一帧画面、每一次对鼠标或按键的响应，过去都是程序冷冰冰的确定性输出。现在，它成了等待有人去学习的 I/O 对齐。

将任何人与机器的接口纳入模型的范围，你就会立即把该接口的所有响应和所有时序，变成一类全新的数据。可能的接口数量没有上限：全双工语音、视觉主动性、时间流逝的感知，最终是回归物理世界、身体和生物信号。每一个新接口都会凭空召唤出一片数据大陆，一块此前从未存在、形态完全开放的大陆。

这才是数据市场的真实形态。不是一块慢慢变大的固定馅饼。而是一张不断扩展、不断萌生新大陆的地图。

信号来自不止一个方向。Jack Dorsey 的公司 Block 发表了一篇文章《从层级到智能》（From Hierarchy to Intelligence），提议围绕公司世界模型和客户世界模型来重建公司本身。这是我今年读过的最有启发的文章。这句话击中了我：金钱是世界上最诚实的信号。人们在调查中撒谎、忽略广告、抛弃购物车。但当他们消费、储蓄、汇款、借贷或还款时，那就是真相。 每一笔交易都陈述了一个关于真实个人生活的事实。一旦你用这种方式看待交易，一个结论就会自行浮现——这个结论应该会让任何持有企业AI战略的人感到不安。ERP、CRM、工单系统，二十年里我们归档为“业务记录”的东西，从来都不是死数据库。它们是两个世界模型——公司和客户——之间对齐的语料库，一直堆在眼前，等着有人来认领。旧的接口一直都是接口。我们只是没这么叫它。我们或许正坐在金矿上，却称之为“流程”和“记录”。

再看远一点，Karpathy 三个月前的自动研究项目，让一个AI智能体自己运行研究循环、自己跑实验、自己迭代，使得研究过程本身的数据最近成了硅谷的热门话题。

横向看，形态无限。纵向看，深度无穷。而现在，连产生数据的过程本身也变成了数据。

但无限的接口并不意味着它们是同等的接口。当一切皆成接口的那一刻，问题悄然改变了形式。它不再问“哪里还有数据”，而开始问“我们先打开哪个接口”。而这个问题是有结构的。有些接口会撒谎。调查撒谎，金钱不会。有些只向你展示已经发生的路径，从不展示没有发生的路径——这正是我在K8s时撞上的那堵墙：一次事故只给你一条轨迹，永远给不了你真正需要的反事实来进行训练。有些接口在深入一层后便触底。另一些则在每一层都打开一个新世界。还有极少数接口，一旦你对其建模，就会萌生出在你打开之前谁也说不出的新接口。

想象力打开了地图。但地图不是指南针。如果你确信市场已被完全绘制，但实际上并没有呢？

这就是 David Deutsch 的意思。这是无穷的开始。 对他而言，知识没有终点。每一个好的解释都会引发我们之前无法提出的新问题、无法想象的新可能性。数据也是如此。我们能命名的寥寥几个类别，不过是我们已经点亮的那几间屋子。黑暗中还有无数房间在等待，而有些门，我们甚至不知道它们的存在。

新黄金是数据。很多人已经这么说。但几乎每个人想象的那座矿，只是我们脚下的一小块地方。真正的矿脉是我们尚不能命名、尚无法描绘其形态的数据——它们将一片大陆接一片大陆地浮现，每当我们解决另一个问题，每当我们打开另一种交互模式。

我们并非身处数据时代的某个中间段落。

我们正处于它的第一章。第一页。

参考文献

Yang, P., et al. (13 authors). “AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis.” arXiv:2603.03378, March 2026. https://arxiv.org/abs/2603.03378

Thinking Machines Lab. “Interaction Models: A Scalable Approach to Human-AI Collaboration,” Thinking Machines Lab: Connectionism, May 2026. https://thinkingmachines.ai/blog/interaction-models/ Thinkingmachines

Zhuge, M., Zhao, C., Liu, H., et al. (19 authors, including Jürgen Schmidhuber). “Neural Computers.” arXiv:2604.06425, April 2026. Meta AI and KAUST. https://arxiv.org/abs/2604.06425

Dorsey, J., and Botha, R. “From Hierarchy to Intelligence.” Published March 31, 2026, jointly on Block and Sequoia Capital. https://block.xyz/inside/from-hierarchy-to-intelligence

Karpathy, A. “autoresearch.” GitHub repository, released March 7, 2026. https://github.com/karpathy/autoresearch

Deutsch, D. The Beginning of Infinity: Explanations That Transform the World. Viking, 2011.





相似文章

我认为AI训练比人们想象的要容易得多

Reddit r/artificial

作者认为，由于廉价的GPU租赁和AI驱动的工具，AI训练如今已经广泛可及，但许多人盲目使用未经验证的低质量数据，导致结果不佳和资源浪费。

@alesfav: 人工智能需要比我们多得多的数据。一个想法或许能缩小差距：不要预测原始信号（词元），而是预测你自己的…

X AI KOLs Following

本线程展示了一个理论结果，表明预测抽象的潜在表征（如JEPA和data2vec）而非原始词元，可以指数级地缩小人工智能与人类学习之间的数据差距。

低资源NLP评估中的注释稀缺悖论：加速十年与新兴约束

arXiv cs.CL

这项批判性综述审视了低资源NLP评估中的注释稀缺悖论——模型快速扩展的速度超过了真实评估所需的人类基础设施，并讨论了新兴应对措施在公平性和有效性方面的权衡。

@dongxi_nlp: 好有价值的文章，最后的 6 条 take away 值得思考。其中最后两条： 5. 数据行业远未发达。 Anthropic 和 OpenAI为单个环境花费1000万美元以上，而中国 AI 实验室基本上是“自建而非购买”心态。 6. 无数…

X AI KOLs Timeline

文章总结了AI数据行业的现状，指出数据行业尚未成熟，Anthropic和OpenAI为单个环境花费超过1000万美元，而中国AI实验室倾向于自建而非购买；此外，许多实验室虽能使用华为芯片但仍渴望更多英伟达芯片。

没人警告你，AI记忆存在六个月的悬崖期。我们过于专注于扩大记忆容量，却忘了让它变得可维护。真有人在解决这个问题，还是只是在增加存储空间然后寄希望于此？

Reddit r/AI_Agents

这篇文章强调了AI记忆在六个月后变得不可靠的问题，出现矛盾和信息摘要漂移，并质疑业界是否专注于增加存储容量而非提升可维护性。