通用量子变换器

arXiv cs.AI 论文

摘要

本文介绍了通用量子变换器(UQT),这是一种量子原生架构,利用多量子比特系统实现精确数学推理,在模运算和置换群上达到确定性泛化,同时绕过了经典过参数化和二次注意力瓶颈,并已部署在IBM Quantum硬件上。

arXiv:2606.00045v1 公告类型:新 摘要:经典的连续空间神经网络从根本上难以锁定如模运算和非交换代数等精确数学对称性。为了近似这些离散逻辑规则,它们通常依赖于大规模参数扩展,导致即使在被称为“顿悟”的延迟泛化现象之后仍存在随机不稳定性。在此,我们介绍通用量子变换器(UQT),一种根本新颖的量子原生计算架构,它利用多量子比特系统的物理特性作为精确数学和代数推理的通用归纳偏置。我们的框架并不翻译经典神经机制,而是完全依赖于参数化几何相位嵌入和 $SU(2)$ 波干涉。我们展示了量子注意力电路在一个高度紧凑的5量子比特基底上完美地学习了两种截然不同的形式类别:循环模算术($\mathbb{Z}_{11}$)和非阿贝尔代数($S_4$ 置换群)。虽然经典注意力网络在收敛时表现出随机不稳定性,但UQT实现了数学上精确、确定性的泛化。我们将这一现象称为“晶化”:一个超越众所周知的“顿悟”现象的步骤。关键之处在于,该框架通过理论上绕过经典自注意力中的二次瓶颈,并通过对所需的表示维度进行对数压缩以消除经典网络中固有的巨大过参数化,从而带来了巨大的计算和内存优势。最后,我们在含噪中等规模量子(NISQ)硬件上部署了该架构,证明了其在当前IBM Quantum计算机上的可行性。这些结果确立了参数化量子拓扑作为精确人工智能的普遍优越物理基底。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:44

# 通用量子变压器
来源:https://arxiv.org/abs/2606.00045
查看 PDF (https://arxiv.org/pdf/2606.00045)

> **摘要:**经典连续空间神经网络从根本上难以锁定精确的数学对称性,例如模算术和非交换代数。为近似这些离散逻辑规则,它们通常依赖大规模参数扩展,即使在被称为“grokking”的延迟泛化现象之后,仍会导致随机不稳定性。在此,我们引入通用量子变压器(UQT),这是一种根本性新颖的、量子原生的计算架构,它利用多量子比特系统的物理特性作为精确数学和代数推理的通用归纳偏置。我们的框架并非转译经典神经机制,而是完全依赖于参数化几何相位嵌入和 $SU(2)$ 波干涉。我们证明,运行在高度紧凑的5量子比特基底上的量子注意力电路,能够完美学习两个高度不同的形式类别:循环模算术($\mathbb{Z}_{11}$)和非阿贝尔代数($S_4$ 置换群)。当经典注意力网络在收敛时表现出随机不稳定性时,UQT 实现了数学上精确的、确定性的泛化。我们将这一现象称为“结晶化”:这是对众所周知的“grokking”现象的一次超越。关键在于,该框架通过理论上绕过经典自注意力的二次瓶颈,并以对数方式压缩所需的表示维度以消除经典网络固有的过度参数化,从而带来了巨大的计算和内存优势。最后,我们将该架构部署在噪声中等规模量子(NISQ)硬件上,证明了其在当前 IBM 量子计算机上的可行性。这些结果确立了参数化量子拓扑作为精确人工智能的普遍优越物理基质的地位。

## 提交历史

来自:Alireza Talebpour \[查看电子邮件 (https://arxiv.org/show-email/18edfae3/2606.00045)\] **\[v1\]** 2026年4月29日星期三 20:49:23 UTC (1,544 KB)

相似文章

Transformer 真的需要三个投影矩阵吗?QKV 变体的系统性研究

Hacker News Top

本文系统研究了 Transformer 中 QKV 投影共享的各种变体,发现共享键和值投影(Q-K=V)可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩,结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。

利用AI设计更好的量子电路

Reddit r/singularity

来自因斯布鲁克大学和NVIDIA的研究人员开发了一种利用多模态扩散模型的人工智能方法,可自动生成高效的量子电路,显著缩短电路长度,并重新发现了如量子傅里叶变换等教科书电路。

Transformer 数学探索器 [P]

Reddit r/MachineLearning

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。