AGI永远不会发生的真正原因……请听我说
摘要
文章认为,AGI的物理功耗需求极为巨大,以至于可能永远无法实现,并将潜在AGI系统的能源需求与日本整个国家的电力消耗进行了比较。
来自电气工程背景的我曾在英国电网工作,真心认为AGI的讨论忽略了最重要的一个限制因素,即\*\*电力\*\*。AGI的讨论似乎与物理现实脱节。人们几乎将其完全视为软件问题,仿佛一旦模型变得足够智能,其余部分就会自动到位。但我越深入了解现代AI基础设施,越感觉在我们有生之年不可能实现。瓶颈在于电力、冷却、散热以及大规模持续维持这些系统所需的物理基础设施。作为参考,英国家庭平均每年用电量约为2700千瓦时。一个现代NVIDIA GB200 AI机架已经持续消耗约120千瓦功率。连续运行该机架一整年,年耗电量将超过105万千瓦时。单个AI机架的年耗电量已相当于约389个英国家庭的平均年用电量,甚至还未计入冷却开销。现在想象一下真正的AGI会是什么样子:不是一个聊天机器人或研究演示,而是一个全球部署的智能层,同时为数十亿用户提供支持,涵盖智能代理、机器人、国防系统、医疗基础设施、科学仿真、金融以及整个经济体的实时决策。如果这样的系统最终需要大约一百万台高端加速器持续运行,而现代H100级GPU在负载下每台功耗已约为700瓦,那么仅GPU层的持续功耗就将达到约700兆瓦?!一旦加入网络、存储、内存、变电站、变压器、冷水机、泵、冷却塔和功率转换损耗,实际基础设施需求可能达到约2千兆瓦的持续功耗。连续以2千兆瓦运行一年,年耗电量约为175亿千瓦时。这大约相当于650万英国家庭的年用电量。这甚至还不是一个成熟的文明级AGI网络,仅仅是一个初步的严肃部署。这正是我认为人们在讨论AGI规模时没有正确心理处理的部分。如果AGI基础设施最终在全球范围内接近100千兆瓦的持续功耗,那么你突然要讨论约876太瓦时的年耗电量,这接近于日本的\*\*全年电力消耗总额\*\*。思考一下这在物理上实际意味着什么。我们不是在谈论炎热天气下几个小时的峰值需求或临时的工业高峰。\*\*我们是在谈论相当于整个主要工业化国家全年电力消耗的持续需求,每秒、每天、永久性地纯粹用于维持一个计算基础设施层。\*\*日本拥有超过1.2亿人口,是地球上最大的工业经济体之一,拥有庞大的交通系统、制造业、铁路网络、照明、供暖、制冷、电信基础设施、医院、港口、居民消费、商业区和整个城市同时运行。\*\*现在想象一下,将所有那一年的电力需求重新定向用于纯粹的计算。\*\* \*\*然后记住,用于计算的几乎每一焦耳电力最终都会转化为热量。\*\*这正是人们因为软件讨论而不断抽象化的问题,因为软件讨论从对话中删除了所有物理因素。大规模AGI系统不仅仅是“做数学”,它是一个持续运行的巨大工业热机。冷却并不能消除热量。冷却只是将其转移到别处。你冷却芯片,然后是机架,然后是房间,然后水循环,然后冷却塔,最终所有这些能量被排放到周围环境的其他地方。当前的讨论将规模扩展视为独立于物理的存在,但物理学恰恰是问题所在。现代空气冷却在机架密度超过约30至40千瓦时已经面临困难,而现代AI机架现在正突破100千瓦。这就是为什么该行业已经积极转向液冷、浸没式冷却、冷水系统和工业规模热交换器。即使这些方法也未能解决根本的热力学问题,它们只是允许在下一个瓶颈出现之前达到更高的密度。在我看来,在我们有生之年这不会发生……
相似文章
很遗憾要让大家失望了……目前我们还没有实现AGI所需的硬件
本文指出,当前的GPU硬件在本质上不足以支撑AGI的实现,计算架构必须进行彻底的重新设计。
你认为能让家庭机器人完成90%家务需要通用人工智能(AGI)吗?
文章探讨了要使能够完成大多数家务的家庭机器人得到广泛普及,是否必须依赖通用人工智能(AGI),同时表达了对于目前先进的机器人操作在很大程度上仍然依赖远程操控的失望之情。
观点:Agentic AI系统是实现AGI的可预见路径
本文认为,单一模型的单体型扩展不足以实现AGI,并提出具有多智能体协作的Agentic AI是必要的范式,理论上证明了代理系统在泛化和样本效率上具有指数级优势。
AGI时间线是否在错误的维度上进行外推?
本文认为,基于扩展当前架构的AGI时间线可能具有误导性,因为真正的通用智能需要理性——处理开放式的现实世界情境——而当前系统由于框架问题以及智能与理性之间的低相关性而缺乏这一点。
AI功耗墙:为何边际芯片微缩无法解决能源悖论
文章讨论了‘AI功耗墙’现象,即计算增长超过效率提升,并提出了四个范式转变——神经形态计算、光子计算、以内存为中心的计算和近似计算——以实现可持续的AI发展,同时推广了即将举行的‘Watt Matters in AI’会议,该会议关注全栈能源削减。