@NaveenGRao: 今天我们介绍来自 @unconvAI 的 Un-0:首个以物理学作为计算原语构建的大规模生成模型……

X AI KOLs Timeline 模型

摘要

Unconventional AI 介绍了 Un-0,这是首个以物理学作为计算原语构建的大规模生成模型,使用耦合振荡器生成具有竞争品质的图像,同时承诺大幅提升能效。

今天我们介绍来自 @unconvAI 的 Un-0:首个以物理学作为计算原语构建的大规模生成模型。这代表了基于物理的模型的“Hello World”时刻。我们利用物理系统固有的时变行为为我们进行计算。结果是一种构建计算机的新方法,可以大幅提高能效。
查看原文
查看缓存全文

缓存时间: 2026/06/26 02:04

今天我们介绍来自 @unconvAI 的 Un-0:首个基于物理计算原语的大规模生成模型。这标志着基于物理模型的“Hello World”时刻。我们利用物理系统固有的时变行为为我们进行计算。其结果是构建一种可以大幅提高能效的新型计算机。


介绍 Un-0:利用耦合振荡器生成图像 - 非传统 AI

来源:https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/ 跳转到内容 (https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/#content) - 博客 (https://unconv.ai/blog/)

  • 资助 (https://unconv.ai/grant/)

  • 加入我们 (https://unconv.ai/careers/)

  • 博客 (https://unconv.ai/blog/)

  • 资助 (https://unconv.ai/grant/)

  • 职业 (https://unconv.ai/careers/)

2026 年 6 月 25 日

介绍 Un-0:利用耦合振荡器生成图像

Un-0 示例马赛克

TL;DR。 在 GPU 上运行深度神经网络主导了人工智能十年,但我们认为下一个能效飞跃需要一种根本不同的计算机,一种让物理本身进行计算的计算设备。我们构建了 Un-0,一个由模拟的耦合振荡器系统驱动的图像生成器,这是一种新兴的物理计算基板。在 ImageNet 64×64 上,它达到了 FID 6.74,与主流传统图像生成方法首次发表时的质量相当。权重、训练和消融代码均已开源。加入我们的非传统之旅吧!

图 0

图 0:Un-0 随时间生成轨迹的示例。每条线条颜色都有一个颜色相近的框,表示类别以及随时间生成的图像。

Un-0

在 Unconventional AI,我们正在构建一种新型计算机,它利用物理定律进行计算。我们的目标是以当今机器所需能量的一小部分(大约 1,000 倍更低)来运行现代 AI。作为第一步,我们提出一个问题:我们能否训练一个物理动力系统(https://en.wikipedia.org/wiki/Dynamical_system)来大规模生成图像?

当今最好的 AI 模型是带有 Transformer 主干网络的传统深度网络。然而,也有很长的替代方案历史,这些方案通过利用物理系统的动力学(例如模拟电路中的噪声、时变行为)来寻求能效,这些电路使用模拟电压和电流而不是传统的数字化数字进行计算。

这些基于物理的替代方案包括神经形态计算(Mead, 1990)、Hopfield 网络(Hopfield, 1982)和储层计算(Jaeger, 2001; Maass 等, 2002)。最近,社区还开发了哈密顿网络(Greydanus 等, 2019)、液体网络(Hasani 等, 2021)、神经波机(Keller & Welling, 2023)、热力学计算(Coles 等, 2023; Jelinčič, 2025)和仓本振荡器(Miyato 等, 2025; Song 等, 2025)。

为了利用这些替代计算方法,需要将 AI 任务高效地映射到物理系统的动力学上。Un-0 验证了现代 AI 工作负载在物理基板上可以比当前硬件运行得更高效。

数据空间轨迹

类别雏菊、湖畔、伞菌、间歇泉、火山、水母的图像形成数据空间轨迹。

在越来越多基于物理和非传统基板构建 AI 的社区中 [1-8 及更多],Un-0 是迄今为止我们所知的最强大的使用物理动力系统模拟的图像生成器。Un-0 在类别条件 ImageNet 64×64 上达到了 FID 6.74,不过模型性能随参数数量增长向传统前沿提升仍有改进空间。

虽然我们探索的物理原语并不新鲜,但我们将其扩展到更大的生成基准,对动力学本身进行了消融分析,并提供了模型行为的解释性分析。

我们发布了模型权重以及训练、评估和消融代码,使任何人都更容易地基于物理系统动力学进行模型实验。我们相信有可能快速超越 Un-0;将现代 AI 重新建立在物理动力学之上并实现约 1000 倍能效提升的旅程才刚刚开始。

Un-0 的工作原理

图 1a:两个类似节拍器的振荡器展示了随时间切换的三种耦合状态:1) 漂移(无耦合),2) 同步(正耦合)和 3) 反相同步(负耦合)。

想象两个节拍器并排滴答作响(图 1a)。每个节拍器在任何时刻都可以用其相位来描述,即其摆臂摆动时的角度。将两个节拍器放在同一张桌子上,它们会通过共享的表面相互影响。根据它们对彼此的敏感程度(即耦合强度),它们会进入同步锁定状态或保持对立状态。这就是振荡器:一个原始组件,其相位以自身固有频率旋转,并受到邻居施加的力。

图 1b

图 1b:一组耦合振荡器随时间演化的示意图。

现在将两个振荡器扩展到数千个。大量这样的振荡器,每个都以自身强度与另一个耦合,会自组织成模式(图 1b)。Un-0 的计算引擎是一大群振荡器,其中所有振荡器对之间的耦合强度是模型的主要可学习参数。

这些耦合振荡器通常被建模为库拉莫托振荡器 (https://en.wikipedia.org/wiki/Kuramoto_model)。具体来说,每个振荡器的运动遵循一条规则,随时间连续应用:它以自身的固有频率旋转,并受到每个其他振荡器的拉动。以下常微分方程 (ODE) 描述了振荡器随时间的变化。

\dot{\theta}_i = \omega_i + \sum_{j=1}^{N} K_{ij}\,\sin(\theta_j - \theta_i), \qquad i = 1, \dots, N

每个振荡器 i 携带相位 \theta_i \in [0, 2\pi),而 \omega_i 是其固有频率。矩阵 K_{ij} 指定耦合强度,决定了振荡器 ji 拉向或拉离对齐的强度。Un-0 这部分组件的学习问题就是学习耦合矩阵 K 和频率 \omega;这些是物理系统的参数。

为什么选择振荡器? 在大脑中,节律性活动和同步化无处不在,长期以来一直被假设执行计算工作,例如将分布式特征绑定成连贯的感知、门控区域之间的通信以及组织脉冲的时间(Gray 等, 1989; Buzsáki, 2006; Fries, 2015)。耦合振荡器是此类行为的最简单数学模型之一,这使它们成为研究神经启发计算模型的原生原语(Winfree, 1967; Kuramoto, 1975; Ermentrout, 1996; Ermentrout 等, 2010)。

对我们 Unconventional 来说最重要的是,振荡器是一种原始物理电路。我们可以直接在 CMOS 或其他[物理基板 (https://unconv.ai/blog/machine-learning-with-dynamics/)] 中实现耦合振荡器系统,使得系统的物理本身直接计算动力学。这就是 Un-0 背后的赌注:如果物理定律能够计算 AI 工作负载,那么执行基板的形式可以与今天 (https://www.youtube.com/watch?v=Zw1J5pJJMGw) 的截然不同。

模型

图 2

图 2:耦合振荡器(带有从条件振荡器到主振荡器池的单向低秩类别条件矩阵)在其训练所得的耦合作用下随时间演化。在时间 T 通过解码器读出图像,生成图像。通过多次采样初始条件来生成图像分布。

模型架构。 使用 Un-0 生成图像的推理过程分为五个步骤:

  1. 从随机开始。 将每个振荡器的相位设置为随机角度 \theta_i \in [0, 2\pi)。这个随机起始状态是种子,即类似于扩散模型或 GAN 采样的噪声。不同的种子生成不同的图像。
  2. 选择类别。 第二组较小的振荡器驱动所需的类别(例如“雏菊”或“火山”),并耦合到主群体中,使主群体偏向与该类别相关的排列。
  3. 让物理执行。 释放系统,让振荡器相互拉动。振荡器从初始随机状态演化,趋向由它们的耦合决定的状态。
  4. 拍摄快照。 在指定时间(我们标记为 T),记录每个振荡器的相位。最终相位的集合是一个数字网格,即图像的潜在表示。
  5. 渲染。 一个传统的解码器(占模型参数不到 13%)将该潜在表示转换为最终的像素。

训练只改变模型中的三项内容:1) 振荡器如何相互耦合(矩阵 K),2) 每个振荡器的固有频率(\omega_i),以及 3) 解码器的权重。振荡器共同取代了原本会是一堆传统神经网络层的东西。

为什么选择这个模型架构? 我们选择这种模型架构是为了给动力学最大的计算灵活性。具体来说,训练所需的正向传播只需要:1) 设置耦合矩阵、振荡器频率和初始相位,2) 演化动力学,以及 3) 读取最终图像潜变量。这与其他类型的动力学生成方法(如扩散 [Sohl-Dickstein 等, 2015] 和流匹配 [Lipman 等, 2022])形成对比,那些方法在训练过程中明确引导动力学。然而,我们方法的权衡是需要更复杂的损失函数,该函数仅根据生成的样本进行操作。

更多细节,我们在附录中提供了更详细的模型说明。

我们如何构建它

对于 CIFAR-10 (http://www.cs.utoronto.ca/~kriz/learning-features-2009-TR.pdf) 和 ImageNet (https://www-cs-faculty.stanford.edu/groups/vision/documents/ImageNet_CVPR2009.pdf) 64×64,我们分别训练了 3 种不同规模的模型。

CIFAR-10

名称振荡器数量总可训练参数振荡器参数解码器参数解码器占比FID@50k
Un-0.n102410241.29M1.13M0.16M12.24%11.01
Un-0.n204820484.94M4.36M0.58M11.77%9.32
Un-0.n4096409619.43M17.11M2.33M11.96%8.76

ImageNet 64×64

名称振荡器数量总可训练参数振荡器参数解码器参数解码器占比FID@50k
Un-0.n6656665657.17M50.96M6.21M10.86%8.41
Un-0.n1024010240129.80M115.11M14.69M11.32%8.01
Un-0.n1638416384322.44M284.84M37.61M11.66%6.74

训练。 我们在 CIFAR-10 和 ImageNet 64×64 上端到端训练耦合矩阵、振荡器频率和解码器,使用了最近提出的漂移损失(Deng 等, 2026)与 DINOv2 特征提取器 [Oquab, Darcet, Moutakanni 等, 2024] 以及 AdamW 优化器。模型使用显式欧拉方案对动力学进行积分。

评估。 我们在这些基准上使用标准评估方法。对于 CIFAR-10 模型,我们使用 50k 个生成样本进行评估,并使用标准包和评估流程与参考 CIFAR-10 统计数据进行对比。对于 ImageNet 64×64 模型,我们使用 50k 个生成样本进行评估,并使用 ADM 评估套件 (https://github.com/openai/guided-diffusion/tree/main/evaluations) 计算 FID。

计算。 所有 CIFAR-10 模型在 1×B200 GPU 上训练,所有 ImageNet 64×64 模型在 8×B200 GPU 上训练。最大的 CIFAR-10 模型训练使用 20 B200 小时,最大的 ImageNet 64×64 模型使用 640 B200 小时。训练中最大的瓶颈是计算漂移损失函数,这需要使用传统的图像特征提取器,并在多个特征视图上计算。

Un-0 的表现

我们将 Un-0 放在一条质量与参数数量曲线上,与传统的和非传统的模型进行对比。

图 3a:CIFAR-10 上参数数量与 FID 的对比。
图 3b:ImageNet 64×64 上参数数量与 FID 的对比。

在图中,实心圆是我们自己在每个数据集相同 FID-50k 协议下测量的模型。空心圆是我们无法直接复现的已发表数字,因为代码、检查点或精确评估设置不可用。

这些已发表数字应视为参考点,而非严格相同的测量值,因为不同论文的评估协议可能不同;例如,一些结果早于 CleanFID,可能使用不同的 Inception 实现或预处理细节。当我们的复现结果与已发表结果非常接近时,我们报告我们的测量值;当因无法解决的设置不匹配而导致复现明显更差时,我们采用已发表值并标记为空心。

对于 ImageNet 64×64,我们特别包含了在 ImageNet 64×64 分辨率下训练和评估的模型,而不是通过后处理或从更高分辨率 ImageNet 模型(如 ImageNet 256×256)降采样获得的结果。参考部分提供了每个模型使用的代码和检查点链接。

讨论。 Un-0 的质量与早期传统生成器(如 NCSNDCGAN-TTURWGAN-GPBigGANiDDPMCDTRACT(Song & Ermon, 2019; Heusel 等, 2017; Gulrajani 等, 2017; Brock 等, 2019; Nichol & Dhariwal, 2021; Song 等, 2023; Berthelot 等, 2023))持平或更优。Un-0 仍然落后于后来的高性能模型,如 EDMGDD(Karras 等, 2022; Zheng & Yang, 2024)。我们认为 Un-0 是一个有前途的初步方法,其质量与多个已建立的图像生成家族首次引入社区时的质量有重叠。

在参数数量方面,Un-0 在我们找到的比较点中扩大了小型模型的帕累托前沿。在较大规模上,Un-0 尚未达到最先进的传统基线:质量随规模提高,但速度慢于传统前沿。我们将这些结果解释为新方法的起点:我们比较的传统方法经过多年的架构和算法改进才从早期发展到现在的水平。通过更好的学习算法、模型架构和物理原语来改进 Un-0 的缩放性能是下一步。

消融实验

Un-0 是一个不寻常的模型,因为我们不仅关心模型质量,还希望将其行为归因于非传统(振荡器)和传统(解码器)组件。如果所有工作都由传统组件完成,那么该模型就没有利用物理动力学。为了验证这一点,我们对模型进行消融以分配责任,我们发现振荡器正在执行有用的计算。

我们进行了以下消融实验。对于每次消融,我们执行了完整的学习率搜索,并选择了对该特定消融产生最低 FID 的学习率。

仅解码器。 我们在没有动力学的情况下单独训练解码器,方法是从先验生成噪声并将该噪声直接通过解码器,并优化与完整模型相同的损失。这个基线告诉我们,在没有动力学帮助的情况下,解码器本身作为生成模型的表现如何。

储层。 我们使用与完整模型相同的损失进行训练,但将动力学权重固定为初始随机初始化。

相似文章

Un-0:利用耦合振荡器生成图像

Hacker News Top

Un-0 是一个由模拟耦合振荡器系统驱动的图像生成器,在 ImageNet 64×64 上达到了 6.74 的 FID,与早期的传统方法相当。该项目开源,旨在展示在物理基板上实现节能人工智能的可能性。

Databricks前AI负责人认为可将AI能耗降低1000倍

TechCrunch AI

由Databricks前AI负责人Naveen Rao领导的Unconventional AI公司声称,其基于振荡器的计算机架构可将AI推理能耗降低多达1000倍,并已通过其首个图像生成模型Un0进行了验证。