可编程概率计算机,拥有100万p比特

Hacker News Top 论文

摘要

本文介绍了一种可编程概率计算机,通过连接FPGA实现了百万个p比特,在伊辛模型上以超过每秒一万亿次翻转的速度进行吉布斯采样,同时引入了一种设计规则,使其能够突破单芯片限制进行扩展。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/28 19:59

# 可编程概率计算机:拥有一百万个p比特

来源:https://arxiv.org/html/2606.25313  
当前地址:\]美国加州斯坦福大学电气工程系,邮编94305  
Navid Anjum Aadit  
navidanj@stanford\.edu (https://arxiv.org/html/2606.25313v1/mailto:[email protected])  
\美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  
Xiuqi Zhang  
美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  
Shuvro Chowdhury  
美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  
Kevin Callahan\-Coray  
美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  
Kyle Lee  
美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  
Saleh Bunaiyan  
美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  
沙特阿拉伯达兰,法赫德国王石油矿产大学电气工程系,邮编31261  
Sanjay Seshan  
美国宾夕法尼亚州匹兹堡,卡内基梅隆大学电气与计算机工程系,邮编15213  
Jason Twigg  
西门子数字工业软件,美国  
Andrew Seawright  
西门子数字工业软件,美国  
Forrest Brewer  
美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  
Tathagata Srimani  
美国宾夕法尼亚州匹兹堡,卡内基梅隆大学电气与计算机工程系,邮编15213  
Kerem Y\. Çamsarı[通讯作者:camsari@ucsb\.edu (https://arxiv.org/html/2606.25313v1/mailto:Corresponding%20author:%[email protected])  
美国加州大学圣塔芭芭拉分校电气与计算机工程系,邮编93106  

###### 摘要  

基于p比特构建的概率计算机曾被提议作为伊辛模型采样和优化的硬件加速器,但现有系统局限于单芯片,受其容量和内存带宽限制。在此,我们通过将FPGA联网,构建了一个远超单个设备容量的伊辛机,实现了一台拥有百万个p比特的可编程概率计算机。该机器以超过每秒万亿次翻转的速度执行吉布斯采样,同时将所有耦合权重保存在本地片上存储器中。执行期间,设备间仅交换1比特边界状态。这种架构引出了任何分布式采样器都面临的一个基本问题:对于一个分区机器,边界信息需要以多频繁的频率刷新,才能使其行为如同未分区机器一样。使用三维Edwards–Anderson自旋玻璃,我们证明答案由单个时序比率η=f_comm/f_p-bit决定,即边界交换频率与本地p比特更新频率之比。在拓扑相关的阈值之上,分布式机器与单片GPU参考相匹配。在阈值之下,残余能量仍按幂律衰减,但指数减小,将并行性转化为可量化的吞吐量-精度权衡。一个理论上的集群平均场模型再现了相同行为,表明这种权衡是分区随机动力学的普遍属性。这些结果提供了一个可编程的百万p比特平台,并在自旋玻璃、Max-Cut和布尔可满足性问题上进行了演示,同时为将概率计算机扩展到单芯片限制之外提供了定量设计规则。

## I. 引言  

当今最强大的计算系统由多个芯片协同工作构建而成。图形处理单元(GPU)集群必须联网才能训练前沿的人工智能模型[1 (https://arxiv.org/html/2606.25313#bib.bib1),2 (https://arxiv.org/html/2606.25313#bib.bib2)];从几十个发展到数千个量子比特的量子处理器,如今面临着芯片边界约束[3 (https://arxiv.org/html/2606.25313#bib.bib3),4 (https://arxiv.org/html/2606.25313#bib.bib4),5 (https://arxiv.org/html/2606.25313#bib.bib5)];而伊辛机的自旋阵列在达到硬组合优化问题所需的规模之前,就已用尽可用资源[6 (https://arxiv.org/html/2606.25313#bib.bib6),7 (https://arxiv.org/html/2606.25313#bib.bib7)]。即使一个问题能容纳于单芯片,仍存在第二个限制:每次变量更新需要从存储器读取耦合权重,当这些权重溢出片外时,更新速率受限于内存带宽[8 (https://arxiv.org/html/2606.25313#bib.bib8),9 (https://arxiv.org/html/2606.25313#bib.bib9),10 (https://arxiv.org/html/2606.25313#bib.bib10),11 (https://arxiv.org/html/2606.25313#bib.bib11)]。将计算分布到多个设备上可同时解决这两个限制,但引入了第三个问题:靠近芯片边界的变量使用的邻居状态,在上次交换后可能已经过时。伊辛机[12 (https://arxiv.org/html/2606.25313#bib.bib12),13 (https://arxiv.org/html/2606.25313#bib.bib13),14 (https://arxiv.org/html/2606.25313#bib.bib14),15 (https://arxiv.org/html/2606.25313#bib.bib15)]是寻找自旋哈密顿量低能态并更广泛地从其玻尔兹曼分布中采样的硬件平台,服务于组合优化和概率推理[16 (https://arxiv.org/html/2606.25313#bib.bib16)]。它们同时面临容量上限和内存墙。一个经典基准是三维Edwards–Anderson (EA)自旋玻璃[17 (https://arxiv.org/html/2606.25313#bib.bib17)],其基态搜索是NP难的[18 (https://arxiv.org/html/2606.25313#bib.bib18)],其丰富的物理特性[19 (https://arxiv.org/html/2606.25313#bib.bib19),20 (https://arxiv.org/html/2606.25313#bib.bib20),21 (https://arxiv.org/html/2606.25313#bib.bib21),22 (https://arxiv.org/html/2606.25313#bib.bib22)]使其几十年来成为优化平台的关键测试场。

参见图注
图1: 分布式稀疏伊辛机 (DSIM)。
(a) 百万p比特规模的稀疏伊辛图(为清晰起见,节点数减少)。
(b) 平衡最小切割分区将图映射到多个FPGA,每个FPGA从片上权重存储器更新其本地子图。
(c) 硬件感知分区:Potts代价函数惩罚将强连接分区放置在远距离设备上,将切割边集中在短跳距离内(补充材料第S5节 (https://arxiv.org/html/2606.25313#S0.SS5))。
(d) 双工边界交换:切割边权重作为影子权重复制到切割的两侧,因此只有1比特边界状态穿过设备边界。
(e) DSIM-1:六个FPGA通过FMC链路构成最近邻链,每个FPGA运行独立的本地时钟。
(f) DSIM-2:十八个FPGA在西门子Veloce proFPGA CS平台上,共享单个主时钟,具有更密集的互连。

在此基准上,量子退火器在多达约2,700个逻辑自旋的三维立方晶格上展示了相干量子临界标度[3 (https://arxiv.org/html/2606.25313#bib.bib3)],而运行基于副本的蒙特卡洛算法的概率计算机最近在相同实例上匹配并超越了这些标度指数[23 (https://arxiv.org/html/2606.25313#bib.bib23)]。为了研究自旋玻璃统计力学(而非优化),专用模拟器如基于FPGA (现场可编程门阵列) 的Janus超级计算机[24 (https://arxiv.org/html/2606.25313#bib.bib24),25 (https://arxiv.org/html/2606.25313#bib.bib25)]和优化的GPU代码[26 (https://arxiv.org/html/2606.25313#bib.bib26),27 (https://arxiv.org/html/2606.25313#bib.bib27)]已在规则晶格上达到数百万自旋,而相干伊辛机已达到10^5自旋[6 (https://arxiv.org/html/2606.25313#bib.bib6)],CMOS退火芯片达到数万自旋[7 (https://arxiv.org/html/2606.25313#bib.bib7)],模拟分岔机器面临相同上限[28 (https://arxiv.org/html/2606.25313#bib.bib28),29 (https://arxiv.org/html/2606.25313#bib.bib29)];全面综述见参考文献[14 (https://arxiv.org/html/2606.25313#bib.bib14),15 (https://arxiv.org/html/2606.25313#bib.bib15)]。这些机器的多芯片版本,包括多FPGA模拟分岔[30 (https://arxiv.org/html/2606.25313#bib.bib30),31 (https://arxiv.org/html/2606.25313#bib.bib31)]和多芯片模拟设计[32 (https://arxiv.org/html/2606.25313#bib.bib32)],以及模拟单个大芯片的联网裸片[9 (https://arxiv.org/html/2606.25313#bib.bib9),33 (https://arxiv.org/html/2606.25313#bib.bib33)],都协同推进,同步交换边界信息,使其按构造保持最新;因此通信带宽必须随更新速率增长(补充材料第S2节 (https://arxiv.org/html/2606.25313#S0.SS2))。从未被测量的是放松这种同步性的代价:边界信息在分布式机器停止表现得像单片机器之前可以变得多陈旧。在此,我们测量了这一代价,并证明单个时序比率(比较边界交换频率与本地更新速度)决定了分布式随机机器的性能。

我们的载体是概率计算机:p比特,即在两个状态之间以可调概率波动的随机单元[34 (https://arxiv.org/html/2606.25313#bib.bib34),35 (https://arxiv.org/html/2606.25313#bib.bib35),36 (https://arxiv.org/html/2606.25313#bib.bib36),37 (https://arxiv.org/html/2606.25313#bib.bib37),38 (https://arxiv.org/html/2606.25313#bib.bib38),39 (https://arxiv.org/html/2606.25313#bib.bib39),40 (https://arxiv.org/html/2606.25313#bib.bib40)],通过图着色并行更新,使得容量和吞吐量随每增加一个设备而增长[41 (https://arxiv.org/html/2606.25313#bib.bib41),42 (https://arxiv.org/html/2606.25313#bib.bib42)]。我们构建了两个互补的分布式稀疏伊辛机 (DSIM),如图1 (https://arxiv.org/html/2606.25313#S1.F1) 所示。DSIM-1 有意打破锁步:六个具有完全独立本地时钟的FPGA,使得边界信息的新鲜度可随意调节。DSIM-2 是一个18-FPGA商用原型平台,具有共享主时钟,展示了更大规模的规则:一百万个p比特以每秒10^12次翻转的速度采样,匹配单片GPU参考,而超过时序收敛的过时钟(降低有效比率)则再现了预测的速度-精度权衡。在时序比率的拓扑相关阈值之上,分布式机器与未分区基线无法区分;在阈值之下,残余能量仍按幂律衰减,但指数减小,这是速度与解质量之间的直接权衡。相同行为还出现在集群平均场理论 (CMFT)[43 (https://arxiv.org/html/2606.25313#bib.bib43),44 (https://arxiv.org/html/2606.25313#bib.bib44),45 (https://arxiv.org/html/2606.25313#bib.bib45),46 (https://arxiv.org/html/2606.25313#bib.bib46),47 (https://arxiv.org/html/2606.25313#bib.bib47)]中,其中集群运行精确的本地蒙特卡洛动力学,并以可调频率交换平均场边界平均值(补充材料第S3节 (https://arxiv.org/html/2606.25313#S0.SS3)):边界陈旧性是分区随机动力学本身的属性,而非任何特定硬件的属性。

参见图注
图2: 单个时序比率控制优化质量 (L^3=37^3,DSIM-1)。
(a) 相邻分区以f_comm交换1比特边界状态,而本地p比特以f_p-bit更新。
(b) 最终每自旋残余能量ρ_E^f与f_p-bit的关系,f_comm从1 kHz到100 MHz,固定预算为10^6次扫描;虚线为单片GPU基线。
(c) 相同数据对η=f_comm/f_p-bit重新绘制,收敛于单条曲线。η≈300附近的垂直带标志着饱和的起始,与方程 (2 (https://arxiv.org/html/2606.25313#S3.E2))一致。误差线:基于10个实例×10次运行的95%自助法置信区间。

## II. 分布式稀疏伊辛机  

我们从稀疏无向伊辛图开始,包含权重{J_ij}和偏置{h_i},其中每个自旋是一个p比特,输出m_i = sgn[tanh(I_i) + r];这里r是(-1, +1)范围内的均匀随机数,I_i = β(h_i + Σ_j J_ij m_j)是逆温度β下的本地场。在大N时,图被分区为子图,每个子图映射到一个设备,形成分布式稀疏伊辛机(图1 (https://arxiv.org/html/2606.25313#S1.F1))。使用标准工具如METIS[48 (https://arxiv.org/html/2606.25313#bib.bib48)]或KaHIP[49 (https://arxiv.org/html/2606.25313#bib.bib49)]获得的平衡最小切割分区,保持切割边数量较少,使得复制切割两侧这些边上的权重成本低廉。有了这些*影子权重*,每个分区完全从片上存储器计算其本地场,与系统大小无关,执行期间穿过设备边界的唯一信息是边界p比特状态本身:每个边界p比特1比特,双向交换,因为每侧需要另一侧的状态(图1 (https://arxiv.org/html/2606.25313#S1.F1)d)。物理拓扑不是全连接的,因此一些边界流量需要多跳传输,增加延迟并加载共享链路。标准分区器最小化切割边,但忽略物理距离,因此我们引入Potts代价函数,惩罚将强连接分区放置在远距离设备上,将切割边集中在短跳距离内(图1 (https://arxiv.org/html/2606.25313#S1.F1)c和补充材料第S5节 (https://arxiv.org/html/2606.25313#S0.SS5))。对于任何分区,最坏情况拥塞度量C_max结合着色调度,限制了可行的本地更新时钟(补充材料第S4节 (https://arxiv.org/html/2606.25313#S0.SS4))。每个设备以时钟频率f_p-bit更新其本地p比特,而边界状态以单独的通信时钟频率f_comm传输。关键无量纲参数为

η = f_comm / f_p-bit (1)

当边界信息相对于本地更新频繁刷新时,η较大;当边界状态在交换之间变得陈旧时,η较小。

我们评估了两个平台(图1 (https://arxiv.org/html/2606.25313#S1.F1)e,f)。DSIM-1 是一个6-FPGA最近邻链,具有独立的本地时钟和源同步双工链路(补充材料第S6节 (https://arxiv.org/html/2606.25313#S0.SS6)和图S8 (https://arxiv.org/html/2606.25313#S0.F8)),允许η自由调节。DSIM-2 是一个18-FPGA西门子Veloce proFPGA CS原型平台,基于AMD VP1902 FPGA(当前最大的FPGA[50 (https://arxiv.org/html/2606.25313#bib.bib50)]),具有共享主时钟和更密集的互连(补充材料图S12 (https://arxiv.org/html/2606.25313#S0.F12));这里f_p-bit和f_comm不能独立调节,过时钟意味着将主时钟提高到

相似文章

EMiX:超越单FPGA限制的仿真

Hacker News Top

介绍了EMiX,一种可扩展的多FPGA框架,用于仿真超出单FPGA资源限制的多核RISC-V架构,并通过跨八个FPGA的64核系统进行了演示。