Un-0:利用耦合振荡器生成图像

Hacker News Top 模型

摘要

Un-0 是一个由模拟耦合振荡器系统驱动的图像生成器,在 ImageNet 64×64 上达到了 6.74 的 FID,与早期的传统方法相当。该项目开源,旨在展示在物理基板上实现节能人工智能的可能性。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/25 23:14

# 介绍 Un-0:利用耦合振荡器生成图像 - 非传统 AI 来源:https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/ 跳转到内容 (https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/#content) - 博客 (https://unconv.ai/blog/) - 资助 (https://unconv.ai/grant/) - 加入我们 (https://unconv.ai/careers/) - 博客 (https://unconv.ai/blog/) - 资助 (https://unconv.ai/grant/) - 职业 (https://unconv.ai/careers/) #### 2026 年 6 月 25 日 ## 介绍 Un-0:利用耦合振荡器生成图像 Un-0 样本马赛克 **太长不看。**在 GPU 上执行深度神经网络主导了人工智能十年,但我们认为下一次能效飞跃需要一种根本不同的计算机,一种让物理学进行计算的计算机。我们构建了 **Un-0**,一个由模拟的*耦合振荡器*系统驱动的图像生成器,这是一种新兴的物理计算基底的示例。在 ImageNet 64×64 上,它达到了 **FID 6.74**,与领先的传统图像生成方法首次发表时的质量相当。权重、训练和消融代码均已开源。加入我们的非传统之旅吧! 图 0 ###### *图 0:Un-0 随时间生成的轨迹样本。每种线条颜色都有一个颜色相似的框,表示类别和随时间生成的图像。* ### Un-0 在非传统人工智能(Unconventional AI),我们正在构建一种新型计算机,一种利用物理定律进行计算的计算机。我们的目标是以当今机器所需能量的一小部分(大约 1,000 倍)来运行现代 AI。作为第一步,我们提出一个问题:我们能否训练一个物理动力系统 (https://en.wikipedia.org/wiki/Dynamical_system) 大规模生成图像? 当今最好的 AI 模型是以 transformer 为骨干的传统深度网络。然而,也存在悠久的替代方案历史,这些方案通过利用物理系统的动力学来追求能效,例如模拟电路(使用模拟电压和电流而非传统数字化数字)的噪声、时变行为。 这些基于物理的替代方案包括神经形态计算 (Mead, 1990)、Hopfield 网络 (Hopfield, 1982) 和储层计算 (Jaeger, 2001; Maass et al., 2002)。最近,社区还开发了哈密顿网络 (Greydanus et al., 2019) 和液态网络 (Hasani et al., 2021)、神经波机器 (Keller & Welling, 2023)、热力学计算 (Coles et al., 2023; Jelinčič, 2025) 以及仓本振荡器 (Miyato et al., 2025; Song et al., 2025)。 为了利用这些替代计算方法,需要将 AI 任务高效地映射到物理系统的动力学上。Un-0 验证了现代 AI 工作负载可以在物理基底上比当今硬件更高效地运行。 数据空间轨迹 ###### *类别为:雏菊、湖畔、伞菌、间歇泉、火山、水母的图像形成数据空间轨迹。* 在日益壮大的、在物理和非传统基底上构建 AI 的社区中 [1–8 等],据我们所知,Un-0 是迄今为止使用物理动力系统模拟的最强大的图像生成器。Un-0 在类别条件 ImageNet 64×64 上达到了 FID 6.74,尽管在作为参数数量的函数向传统前沿改进模型性能方面仍有提升空间。 虽然我们探索的物理基元并不新颖,但我们将其扩展到更大的生成基准,对动力学本身进行了消融分析,并对模型的行为提供了解释性分析。 我们发布了模型权重以及训练、评估和消融代码,以便任何人都能更轻松地实验基于物理系统动力学的模型。我们相信有可能迅速超越 Un-0;在将现代 AI 重新建立在物理动力学之上并达到约 1000 倍能效增益的旅程中,这仅仅是开始。 ### Un-0 的工作原理 ###### *图 1a:两个类似节拍器的振荡器随时间切换三种耦合状态:1)漂移(无耦合),2)同步(正耦合)和 3)反相同步(负耦合)。* 想象两个节拍器并排滴答(图 1a)。每个节拍器在任何时刻都可以用其*相位*来描述,即其摆臂在摆动中的角度。将两个节拍器放在同一张桌子上,它们会通过共享的表面相互作用。取决于它们对彼此的敏感程度,即耦合强度,它们会同步或进入对立状态。这就是振荡器:一个基本组件,其相位希望以自身速率旋转,并受到邻居力量的影响。 图 1b ###### *图 1b:一组耦合振荡器演化的示意图。* 现在从两个振荡器扩展到数千个。大量这样的振荡器,每个与其他振荡器以各自的强度耦合,自组织成模式(图 1b)。Un-0 的计算引擎是一大群振荡器,其中所有振荡器对之间的耦合强度是模型的主要可学习参数。 这些耦合振荡器通常被建模为*仓本振荡器* (https://en.wikipedia.org/wiki/Kuramoto_model)。具体来说,每个振荡器的运动遵循一个单一规则,随时间连续应用:它以自身的固有频率旋转,并受到每个其他振荡器的牵引。以下常微分方程 (ODE) 描述了振荡器随时间的变化。 `\dot{\theta}_i = \omega_i + \sum_{j=1}^{N} K_{ij}\,\sin(\theta_j - \theta_i), \qquad i = 1, \dots, N` 每个振荡器 `i` 带有一个相位 `\theta_i \in [0, 2\pi)`,而 `\omega_i` 是其固有频率。矩阵 `K_{ij}` 指定了耦合强度,它决定了振荡器 `j` 将 `i` 拉向或拉离对齐的强度。对于 Un-0 的这个部分,学习问题是学习耦合矩阵 `K` 和频率 `\omega`;这些是物理系统的参数。 **为什么选择振荡器?**在大脑中,节律性活动和同步化无处不在,长期以来一直被假设执行计算工作,例如将分布式特征绑定成连贯的感知、门控区域之间的通信以及组织尖峰的时间 (Gray et al., 1989; Buzsáki, 2006; Fries, 2015)。耦合振荡器是这类行为最简单的数学模型之一,这使它们成为研究神经启发计算模型的自然基元 (Winfree, 1967; Kuramoto, 1975; Ermentrout, 1996; Ermentrout et al., 2010)。 对我们非传统人工智能来说最重要的是,振荡器是一种基本的物理电路。我们可以直接在 CMOS 或其他[物理基底 (https://unconv.ai/blog/machine-learning-with-dynamics/) 中实现耦合振荡器系统,使得系统的物理特性直接计算动力学。这正是 Un-0 背后的赌注:如果物理定律可以计算 AI 工作负载,那么执行基底可以看起来非常不同于今天的 (https://www.youtube.com/watch?v=Zw1J5pJJMGw) 硬件。 ### 模型 图 2 ###### *图 2:耦合振荡器(带有从条件振荡器到振荡器池的单向低秩类别条件矩阵)在其训练的耦合下随时间演化。图像在时间 T 通过解码器读出以生成图像。通过多次采样初始条件生成图像分布。* **模型架构。**使用 Un-0 推断生成图像遵循五个步骤: 1. **从随机开始。**将每个振荡器的相位设置为随机角度 `\theta_i \in [0, 2\pi)`。这个随机起始状态是种子,即扩散模型或 GAN 采样噪声的对应物。不同的种子会产生不同的图像。 2. **选择类别。**第二组较小的振荡器驱动请求的类别(例如,“雏菊”或“火山”),并与主群体耦合,将主群体偏向与该类别相关的排列。 3. **让物理执行。**释放系统,让振荡器相互牵引。振荡器从初始随机起点演化,并向由其耦合决定的状态稳定。 4. **拍摄快照。**在指定时间(我们标记为 `T`),记录每个振荡器的相位。这些最终相位的集合是一个数字网格,是图像的潜在表示。 5. **渲染。**一个传统的解码器(占模型参数不到 13%)将该潜在表示转换为最终像素。 训练只改变模型内部的三个部分:1)振荡器如何耦合(矩阵 `K`),2)每个振荡器的固有频率(`\omega_i`),以及 3)解码器的权重。振荡器共同取代了原本会是一堆传统神经网络层的部分。 **为什么选择这种模型架构?**我们选择这种模型架构是为了让动力学具有最大的计算灵活性。具体来说,训练的前向传播只需要 1)设置耦合矩阵、振荡器频率和初始相位,2)演化动力学,以及 3)读取最终图像潜在变量。这与动态生成的其他形式(如扩散 [Sohl-Dickstein et al., 2015] 和流匹配 [Lipman et al., 2022])形成对比,后者在训练期间显式引导动力学。然而,我们方法的权衡是需要一个更复杂的损失函数,该函数仅根据生成的样本进行操作。 有关更多详细信息,我们在附录中提供了更丰富的模型规格。 ### 我们如何构建它 对于 CIFAR-10 (http://www.cs.utoronto.ca/~kriz/learning-features-2009-TR.pdf) 和 ImageNet (https://www-cs-faculty.stanford.edu/groups/vision/documents/ImageNet_CVPR2009.pdf) 64×64,我们训练了 3 种不同大小的模型。 **CIFAR-10:** | 名称 | 振荡器数量 | 总可训练参数 | 振荡器参数 | 解码器参数 | 解码器比例 | FID@50k | |------|------------|--------------|------------|------------|------------|---------| | Un-0.n1024 | 1024 | 1.29M | 1.13M | 0.16M | 12.24% | 11.01 | | Un-0.n2048 | 2048 | 4.94M | 4.36M | 0.58M | 11.77% | 9.32 | | Un-0.n4096 | 4096 | 19.43M | 17.11M | 2.33M | 11.96% | 8.76 | **ImageNet 64×64:** | 名称 | 振荡器数量 | 总可训练参数 | 振荡器参数 | 解码器参数 | 解码器比例 | FID@50k | |------|------------|--------------|------------|------------|------------|---------| | Un-0.n6656 | 6656 | 57.17M | 50.96M | 6.21M | 10.86% | 8.41 | | Un-0.n10240 | 10240 | 129.80M | 115.11M | 14.69M | 11.32% | 8.01 | | Un-0.n16384 | 16384 | 322.44M | 284.84M | 37.61M | 11.66% | 6.74 | **训练。**我们使用最近提出的漂移损失 (Deng et al., 2026) 与 DINOv2 特征提取器 [Oquab, Darcet, Moutakanni et al., 2024] 以及 AdamW 优化器,在 CIFAR-10 和 ImageNet 64×64 上端到端训练了耦合矩阵、振荡器频率和解码器。模型使用显式 Euler 方案对动力学进行积分。 **评估。**我们使用这些基准的标准评估方法。对于 CIFAR-10 模型,我们使用 50k 个生成样本进行评估,并与使用标准包和评估管道的参考 CIFAR-10 统计数据进行比较。对于 ImageNet 64×64 模型,我们使用 50k 个生成样本进行评估,并使用 ADM 评估套件 (https://github.com/openai/guided-diffusion/tree/main/evaluations) 计算 FID。 **计算。**我们在 1 块 B200 GPU 上训练了所有 CIFAR-10 模型,在 8 块 B200 GPU 上训练了所有 ImageNet 64×64 模型。最大的 CIFAR-10 模型训练使用 20 个 B200 小时,最大的 ImageNet 64×64 模型使用 640 个 B200 小时。训练中最大的瓶颈是漂移损失函数的计算,这需要使用传统的图像特征提取器,并且需要在多个特征视图上计算。 ### Un-0 的定位 我们将 Un-0 放在一个**质量与参数数量**的曲线上,与传统的和非传统的模型进行比较。 ###### *图 3a:CIFAR-10 的参数数量与 FID。* ###### *图 3b:ImageNet 64×64 的参数数量与 FID。* 在图表中,实心圆点是我们自己在每数据集相同的 `FID-50k` 协议下测量的模型。空心圆点是我们无法直接复现的已发表数字,因为代码、检查点或确切的评估设置不可用。 这些已发表数字应视为参考点,而非严格相同的测量值,因为不同论文的评估协议可能不同;例如,一些结果早于 CleanFID,可能使用不同的 Inception 实现或预处理细节。当我们的复现与已发表结果非常接近时,我们报告我们的测量值;当由于未解决的环境不匹配导致复现明显更差时,我们采用已发表值并将其标记为空心。 对于 ImageNet 64×64,我们特别包括了在 ImageNet 64×64 分辨率下训练和评估的模型,而不是通过对更高分辨率 ImageNet 模型(如 ImageNet 256×256)进行后处理或降采样获得的结果。请参阅参考文献部分了解每个模型使用的代码和检查点链接。 **讨论。**Un-0 的质量与早期的传统生成器(如 `NCSN`、`DCGAN-TTUR`、`WGAN-GP`、`BigGAN`、`iDDPM`、`CD` 和 `TRACT`)相当或更好 (Song & Ermon, 2019; Heusel et al., 2017; Gulrajani et al., 2017; Brock et al., 2019; Nichol & Dhariwal, 2021; Song et al., 2023; Berthelot et al., 2023)。Un-0 仍然落后于后来的高性能模型,如 `EDM` 和 `GDD` (Karras et al., 2022; Zheng & Yang, 2024)。我们将 Un-0 视为一种有前景的初步方法,其质量与首次引入社区时的几个已建立的图像生成家族存在重叠。 在参数数量方面,在我们找到的比较点中,Un-0 为小模型扩展了帕累托前沿。在更大的尺寸下,Un-0 尚未达到最先进的传统基线:质量随着规模而持续改进,但速度慢于传统前沿。我们将这些结果解释为一种新方法的起点:我们比较的传统方法经过多年的架构和算法改进,才从早期阶段扩展到如今的状态。通过更好的学习算法、模型架构和物理基元来改善 Un-0 的扩展方式,是下一步的工作。 ### 消融实验 Un-0 是一个不寻常的模型,因为我们不仅关心模型质量,还希望将其行为归因于非传统(振荡器)和传统(解码器)组件之间。如果所有工作都由传统组件完成,那么模型就没有利用物理动力学。为了测试这一点,我们对模型进行消融以归因责任,**我们发现振荡器正在执行有用的计算。** 我们进行了以下消融实验。对于每个消融实验,我们执行了完整的学习率扫描,并选择了导致该特定消融实验达到最低 FID 的学习率。 **仅解码器。**我们单独训练解码器,不包含动力学:从先验生成噪声,仅将该噪声通过解码器,并优化与完整模型相同的损失。该基线告诉我们解码器本身作为生成模型的表现如何,没有动力学的帮助。 **储层。**我们使用与完整模型相同的损失进行训练,但将动力学权重固定为初始随机初始化。此消融实验检查是否仅仅将动力学用作随机特征提取器(也称为特征*储层* [Tanaka et al., 2019])就足够了。 **时间增量。**对于 Un-0 和储层,我们在训练期间改变推理步数。使用单步积分时,模型的行为类似于典型神经网络中的单层。

相似文章

HiDream-ai/HiDream-O1-Image-Dev

Hugging Face Models Trending

HiDream-ai 发布了 HiDream-O1-Image-Dev,这是一个拥有 80 亿参数的开源图像生成模型,采用像素级统一 Transformer 架构,无需外部 VAE。该模型在 Artificial Analysis Text to Image Arena 排行榜中位列第 8,支持高达 2,048x2,048 的超高分辨率图像生成。

unsloth/ERNIE-Image-Turbo-GGUF

Hugging Face Models Trending

unsloth 发布了基于百度的 ERNIE-Image-Turbo 模型的 GGUF 量化版本,采用 Unsloth Dynamic 2.0 方法,能够在配备 24GB 显存的消费级 GPU 上通过 8 步推理高效实现文生图。

HiDream-ai/HiDream-O1-Image

Hugging Face Models Trending

HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。

nvidia/Cosmos3-Super-Image2Video

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Super-Image2Video,该模型能够根据输入图像和文本指令生成时间上连贯的视频序列,是面向物理 AI 应用的 Cosmos 3 全模态世界模型平台的一部分。