QASM-Eval:用于训练和评估LLM处理超越量子电路的OpenQASM-3的数据集
摘要
介绍QASM-Eval,这是首个用于训练和评估LLM处理具有硬件导向特性的OpenQASM 3程序的综合数据集,包含专家验证的测试集和训练集。评估表明,在QASM-Eval上进行微调显著提升了LLM性能,其中Llama-3-70B达到了85%的pass@1,超越了少样本GPT-5.2。
查看缓存全文
缓存时间: 2026/06/01 09:22
# QASM-Eval:用于训练和评估超越量子电路的OpenQASM-3大语言模型的数据集 来源:https://arxiv.org/html/2605.30358 ###### 摘要 量子计算仍处于嘈杂中型规模量子(NISQ)时代,其性能受到噪声的高度制约。解决这一限制通常需要超越门序列电路规范的硬件级能力,包括用于量子纠错(QEC)的线路中测量和经典反馈、用于动力学去耦(DD)的精确时序控制,以及用于校准的脉冲级波形访问。OpenQASM 3 正是为了暴露这些能力而引入的,它提供了一个硬件级编程接口。然而,尽管大语言模型在代码生成方面取得了快速进展,目前仍然没有专门设计用于训练和评估 LLM 处理涉及高级硬件相关特性的 OpenQASM 3 程序的数据集。 为填补这一空白,我们引入了 QASM-Eval,这是首个专门用于训练和评估 LLM 在 OpenQASM 3 上的综合数据集。QASM-Eval 并非关注量子算法设计或推理,而是明确针对该语言的硬件相关特性。QASM-Eval 包含一个经过专家验证的 100 个任务的测试集和一个 4000 个任务的训练集,系统性地覆盖了经典逻辑、时序调度、脉冲控制以及复杂的真实世界工作流。为了自动验证生成的程序,我们使用一个扩展验证器检查语法、量子态和程序时间线。我们的评估显示,尽管最先进的 LLM 在 OpenQASM 3 编程任务上表现困难,但在 QASM-Eval 上进行有针对性的微调带来了显著的提升。具体来说,微调后的 Llama-3-8B 接近零样本 GPT-5.2 的性能,而 Llama-3-70B 则实现了 85% 的整体 pass@1,超越了少样本增强的 GPT-5.2。QASM-Eval 提供了一个关键的基准和训练基础,以加速开发用于 NISQ 时代硬件相关量子编程的可靠 LLM 助手。数据和代码:https://github.com/fuzhenxiao/QASM-Eval ## 1 引言 量子计算在化学模拟\[12 (https://arxiv.org/html/2605.30358#bib.bib19),32 (https://arxiv.org/html/2605.30358#bib.bib20)\]、优化\[1 (https://arxiv.org/html/2605.30358#bib.bib21)\]和量子机器学习\[13 (https://arxiv.org/html/2605.30358#bib.bib22),7 (https://arxiv.org/html/2605.30358#bib.bib23)\]等领域已经显示出优势。然而,实用的量子硬件仍处于嘈杂中型规模量子(NISQ)阶段\[15 (https://arxiv.org/html/2605.30358#bib.bib24),38 (https://arxiv.org/html/2605.30358#bib.bib25)\],其中量子处理器仍受到量子噪声的影响,这是一种随机干扰,会破坏量子态并导致计算偏差。尽管存在许多缓解噪声影响的方法,例如量子纠错(QEC)\[19 (https://arxiv.org/html/2605.30358#bib.bib35)\]、动力学去耦(DD)\[28 (https://arxiv.org/html/2605.30358#bib.bib36)\]和常规校准\[29 (https://arxiv.org/html/2605.30358#bib.bib37)\],但每一种都需要特定的低级硬件控制。首先,QEC 依赖于线路中测量和运行时经典计算/反馈\[42 (https://arxiv.org/html/2605.30358#bib.bib38)\]。其次,像 DD 这样的干预方法高度依赖于对门时序的精确控制\[10 (https://arxiv.org/html/2605.30358#bib.bib39)\]。第三,由于量子位会自然漂移,并且校准后的门保真度会持续下降\[9 (https://arxiv.org/html/2605.30358#bib.bib45),39 (https://arxiv.org/html/2605.30358#bib.bib46)\],维持性能不仅需要常规校准,还需要脉冲级访问来主动调整控制波形。然而,现有的高级量子编程工具,如 Qiskit\[22 (https://arxiv.org/html/2605.30358#bib.bib15)\]、Cirq\[17 (https://arxiv.org/html/2605.30358#bib.bib16)\] 和 PennyLane\[5 (https://arxiv.org/html/2605.30358#bib.bib17)\],缺乏对这些细粒度硬件控制的全面支持。 OpenQASM 3\[16 (https://arxiv.org/html/2605.30358#bib.bib18)\] 通过充当连接算法与物理的硬件感知中间表示来解决这些限制。与高级工具不同,OpenQASM 3 暴露了硬件指令,直接满足噪声缓解所需的各种操作。首先,它支持嵌入硬件的经典逻辑和控制流,实现运行时线路中操作。其次,它引入了显式的门时序和调度结构,允许动态操作持续时间、对齐和延迟插入。最后,OpenQASM 3 进一步扩展到脉冲级控制,允许开发人员直接描述或调整物理控制波形,从而为用户提供主动管理校准细节的手段。综合这些能力,使得 OpenQASM 3 成为在 NISQ 时代提升量子计算性能的关键推动力。 鉴于 OpenQASM 3 日益增长的复杂性和特性,以及用于代码生成的大语言模型(LLM)的快速进步\[24 (https://arxiv.org/html/2605.30358#bib.bib30),44 (https://arxiv.org/html/2605.30358#bib.bib29),36 (https://arxiv.org/html/2605.30358#bib.bib31),25 (https://arxiv.org/html/2605.30358#bib.bib28)\],使用 LLM 辅助 OpenQASM 编程是顺理成章的下一步。然而,这一方向目前受到缺乏合适数据集的限制。现有的 OpenQASM 相关资源可分为两类,均不理想。一些数据集,如 Veri-Q\[14 (https://arxiv.org/html/2605.30358#bib.bib8)\] 和 QASMBench\[33 (https://arxiv.org/html/2605.30358#bib.bib7)\],是为基准测试量子算法或硬件平台而设计的,而非支持 LLM 训练或评估。其他数据集,如 QCircuitBench\[47 (https://arxiv.org/html/2605.30358#bib.bib6)\] 和 Agent-Q\[23 (https://arxiv.org/html/2605.30358#bib.bib55)\],仍然局限于门序列电路生成,没有涵盖 OpenQASM 3 的关键特性,包括经典逻辑、时序调度和脉冲控制。如表1 (https://arxiv.org/html/2605.30358#S1.T1) 所总结的,现有资源没有同时针对 LLM 代码生成并捕获定义 OpenQASM 3 在提升 NISQ 时代量子计算性能方面的核心作用的核心特性。 | OpenQASM 数据集 | LLM目标 | 经典逻辑 | 时序调度 | 脉冲控制 | | :--- | :--- | :--- | :--- | :--- | | 我们的工作 (QASM-Eval) | ✓ | ✓ | ✓ | ✓ | | QCircuitBench\[47 (https://arxiv.org/html/2605.30358#bib.bib6)\] | ✓ | × | × | × | | Agent-Q\[23 (https://arxiv.org/html/2605.30358#bib.bib55)\] | ✓ | × | × | × | | Veri-Q\[14 (https://arxiv.org/html/2605.30358#bib.bib8)\] | × | × | × | × | | QASMBench\[33 (https://arxiv.org/html/2605.30358#bib.bib7)\] | × | × | × | × | 表1:代表性 OpenQASM 相关资源的比较,依据它们是否针对 LLM 代码生成以及是否涵盖主要的 OpenQASM 3 特性维度。 为填补这些空白,我们提出了 **QASM-Eval**,这是一个 OpenQASM 3 编程任务数据集,其中关键逻辑片段被替换为自然语言提示,供 LLM 完成,并配以规范解。我们的主要贡献包括: - • 我们构建了一个用于 LLM 训练和评估的 OpenQASM 3 任务集。我们发布了一个包含 100 个任务的测试集、一个包含 4000 个任务的训练集以及两个有针对性的微调模型。该数据集涵盖了关键的 OpenQASM 3 能力,包括经典逻辑/控制流、时序约束和脉冲级控制。为了验证这些特性,我们扩展了现有工具链,增加了新的 OpenQASM 3 支持,以便生成的代码可以针对语法、语义和调度约束进行自动验证。 - • 利用 QASM-Eval 测试集,我们分析了当前模型在 OpenQASM 3 任务上的局限性,并评估了我们的训练数据在微调中的有效性:在 Llama-8B 和 Llama-70B 上,我们的微调将 pass@1 提高了 28–58%;微调后的 8B 模型接近 GPT-5.2 的零样本性能,而微调后的 70B 模型超越了少样本增强的 GPT。 ## 2 相关工作 #### NISQ 时代下的量子计算 实用量子计算仍受到 NISQ 阶段的制约,其中设备性能受到源自各种因素的量子噪声的限制,例如状态制备和测量 (SPAM) 错误\[43 (https://arxiv.org/html/2605.30358#bib.bib50)\]、不完美的门实现\[41 (https://arxiv.org/html/2605.30358#bib.bib51)\]、串扰\[2 (https://arxiv.org/html/2605.30358#bib.bib52)\] 和退相干\[30 (https://arxiv.org/html/2605.30358#bib.bib43)\],这些噪声会随着电路加深而累积。因此,大量的工作集中在噪声缓解和抑制上。量子纠错 (QEC)\[19 (https://arxiv.org/html/2605.30358#bib.bib35),42 (https://arxiv.org/html/2605.30358#bib.bib38)\] 通过将逻辑量子位编码到多个物理量子位中、通过线路中测量检查量子位状态以及通过经典计算定位潜在错误\[3 (https://arxiv.org/html/2605.30358#bib.bib53),6 (https://arxiv.org/html/2605.30358#bib.bib54)\],提供了一种实现容错的原则性途径。动力学去耦 (DD)\[28 (https://arxiv.org/html/2605.30358#bib.bib36),10 (https://arxiv.org/html/2605.30358#bib.bib39)\] 通过插入精心定时的脉冲序列来平均掉低频噪声,从而减少噪声,这使得它对操作时序和间隔的精确控制高度敏感,尤其是在动态电路中。校准也至关重要。尽管供应商会定期重新校准设备以维持保真度\[29 (https://arxiv.org/html/2605.30358#bib.bib37)\],但量子位频率、门参数和读出特性在校准之间仍会不断漂移\[9 (https://arxiv.org/html/2605.30358#bib.bib45),39 (https://arxiv.org/html/2605.30358#bib.bib46)\]。因此,高级用户可能还需要直接访问定制的控制波形\[27 (https://arxiv.org/html/2605.30358#bib.bib41),35 (https://arxiv.org/html/2605.30358#bib.bib40)\]。然而,这些硬件相关的需求在大多数高级量子软件栈中只有微弱的暴露。 #### OpenQASM 3 语言 OpenQASM 3\[16 (https://arxiv.org/html/2605.30358#bib.bib18)\] 正是为了弥合高级程序规范与低级硬件执行之间的差距而引入的。它相对于早期电路描述格式最重要的进步在于支持嵌入的经典计算和控制流,包括基于测量结果的分支和运行时决策,这使得线路中自适应协议可以在语言本身内部表达。OpenQASM 3 还包含了显式的时序和调度结构,允许程序员以更高的精度控制操作持续时间、对齐和插入的延迟;这对于表达时间敏感技术(如 DD 或硬件感知的门编排)至关重要。此外,该语言扩展到脉冲级控制,能够指定和调整校准敏感实验和自定义硬件操作所需的物理控制波形。这些特性使 OpenQASM 3 成为 NISQ 时代程序的一个实用接口,这些程序必须与设备物理紧密交互,而不是停留在抽象电路的层面。 #### OpenQASM 数据集 将 LLM 应用于量子编程是一个新兴领域,当前的数据集强烈偏向于高级 SDK 生态系统,而不是中间表示。诸如 QDataset\[37 (https://arxiv.org/html/2605.30358#bib.bib9)\]、Qiskit-HumanEval\[45 (https://arxiv.org/html/2605.30358#bib.bib10)\]、QuanBench\[20 (https://arxiv.org/html/2605.30358#bib.bib11)\] 和 MQTBench\[40 (https://arxiv.org/html/2605.30358#bib.bib13)\] 等数据集主要评估宿主端 Python 代码生成。在直接针对 OpenQASM 的资源中,Veri-Q\[14 (https://arxiv.org/html/2605.30358#bib.bib8)\] 和 QASMBench\[33 (https://arxiv.org/html/2605.30358#bib.bib7)\] 专注于使用静态电路文件进行编译器优化和硬件基准测试。QCircuitBench\[47 (https://arxiv.org/html/2605.30358#bib.bib6)\] 和 Agent-Q\[23 (https://arxiv.org/html/2605.30358#bib.bib55)\] 是 LLM 研究中最接近的前身,因为 QCircuitBench 将电路与自然语言描述配对,而 Agent-Q 包含专门为优化问题设计的各种电路;然而,它们仍然局限于基本的门序列脚本。因此,文献中目前缺乏任何能够捕捉 OpenQASM 3 的动态、硬件相关特性——特别是经典逻辑、显式调度和脉冲控制——的基准。 ## 3 QASM-Eval 数据集 在本节中,我们介绍 QASM-Eval。据我们所知,QASM-Eval 是第一个为 LLM 设计的、针对 OpenQASM 3 及其超越特定量子电路的高级硬件级特性的数据集。测试集包含 100 个跨越不同主题的 OpenQASM 3 量子编程任务,而训练集可以大规模生成(我们在本工作中生成了 4,000 个任务用于微调,并且我们发布的代码支持进一步的可扩展生成。),同时附带一个基于模拟的测试平台。我们详细阐述两个关键方面:(1) 为了全面覆盖 OpenQASM 3 引入的新特性,我们的数据集包含三大主要任务类别,包括经典逻辑、时序调度和脉冲控制,以及一个额外的具有挑战性的复杂任务类别,该类别基于实际应用(如 QEC、DD 和校准)整合了所有三个类别;(2) 为了支持大规模数据生成同时保持正确性,我们采用了一个数据集构建流程,该流程结合了精心设计的模板、LLM 辅助增强和专家审查,这一策略在先前的 LLM 数据集工作中已被证明有效\[46 (https://arxiv.org/html/2605.30358#bib.bib47),34 (https://arxiv.org/html/2605.30358#bib.bib48),26 (https://arxiv.org/html/2605.30358#bib.bib49)\]。 ### 3.1 任务类别 QASM-Eval 包含如表2 (https://arxiv.org/html/2605.30358#S3.T2) 所列的四个任务类别。三个类别针对 OpenQASM 3 中的核心新能力:(1) **经典逻辑**任务,涉及经典控制和计算;(2) **时序调度**任务,侧重于时序和调度原语;(3) **脉冲控制**任务,涉及低级脉冲、校准及相关功能。此外,我们还包含了 (4) **复杂**类别,它将所有特性整合到更具挑战性的现实世界问题中,例如 QEC、DD 和校准。更多细节可在附录 D (https://arxiv.org/html/2605.30358#A4) 中找到。 表2:QASM-Eval 的任务分类,包含四个类别。每个类别包含 25 个测试任务和 1000 个训练任务。 | 类别 | # 测试 | # 训练 | 涉及的特性/功能 | | :--- | :--- | :--- | :--- | | 经典 | 25 | 1000 | if/else, 线路中测量, while循环, for循环, switch语句, 算术计算, 动态单元, 动态数据类型, 类型转换, 数组, 动态比较, 按位操作, 外部函数 | | 时序 | 25 | 1000 | delay, duration, 混合单位, stretch, 多重stretch, 对齐, 比例排列, 动态duration, box操作, barrier | | 脉冲 | 25 | 1000 | 波形校准/重写/测量, 移相, 调制, 自定义波形, 帧同步, 参数化门, 多路复用读出, 相位跟踪 | | 复杂 | 25 | 1000 | 以上所有 + 真实世界应用场景,包括 QEC, DD, 校准, RAMSEY, Hahn echo, 奇偶校验, 串扰检测, ... | #### 经典逻辑任务 此类任务
相似文章
FactoryLLM: 一个用于在智能工厂中评估LLM的安全开源AI试验场
FactoryLLM是一个开源AI试验场,用于评估智能工厂故障诊断中基于LLM的RAG模型,支持本地LLM和双重评估指标。一项包含三个LLM的案例研究显示,在来自600页跨机器文档的30个维护查询中,接地性得分均超过0.88。
@DanKornas:LLM评估是大多数AI演示开始成为真正系统的地方。LLM-Evaluation是一个公共GitHub资源,包含研讨会幻灯片…
一条推文宣布了LLM-Evaluation,这是一个公共GitHub仓库,包含用于评估LLM、生成式AI和RAG系统的研讨会幻灯片、示例笔记本、提示词和参考链接,旨在提供评估工作流的实用地图。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。
评估开源大语言模型在自主代号游戏模拟中的表现
一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。
HPC-LLM:面向HPC支持的实用领域自适应与检索增强生成
本文介绍了HPC-LLM,一个面向HPC工作流的检索增强与领域自适应助手,基于HPC文档使用QLoRA微调Llama 3.1 8B模型。实验表明,该模型在资源需求显著降低的情况下,性能与更大的通用模型相当。