StepPRM-RTL：基于逐步过程奖励引导的LLM微调以增强RTL综合

arXiv cs.AI 2026/06/04 04:00 论文

rtl-synthesis llm-fine-tuning process-reward-modeling hardware-design verilog reinforcement-learning mcts

摘要

StepPRM-RTL 是一个新颖的框架，结合了逐步轨迹建模、过程奖励建模（PRM）和检索增强微调（RAFT），旨在提升基于LLM的RTL代码生成能力，适用于 Verilog 和 VHDL，在功能正确性指标上比现有最优方法提升超过10%。

arXiv:2606.04246v1 公告类型：新论文摘要：由于涉及长链推理、多步骤依赖以及 Verilog 和 VHDL 中严格的正确性约束，数字硬件设计的RTL代码自动生成至今仍具挑战性。我们提出了 StepPRM-RTL，一个将逐步轨迹建模、过程奖励建模（PRM）与检索增强微调（RAFT）相结合的新颖框架，旨在提升基于LLM的RTL代码生成在功能正确性和推理可信度两方面的表现。StepPRM-RTL 从标准解中构建逐步推理轨迹，每一步包含推理依据和增量式代码修改。过程奖励模型（PRM）对中间步骤进行评估，提供密集的反馈信号，用于指导 RAFT 微调过程中的强化式更新。蒙特卡洛树搜索（MCTS）探索备选推理路径，以高质量轨迹丰富训练数据集。逐步奖励与结果感知奖励的结合，使模型不仅能学习如何生成正确的RTL代码，还能理解其背后的原因，从而在长链推理能力上超越标准的监督训练或基于结果的训练方式。在 Verilog 和 VHDL 基准数据集上的实验评估表明，StepPRM-RTL 在功能正确性和推理可信度指标上比现有最优方法高出10%以上。消融实验证实，PRM引导奖励与逐步轨迹探索的组合是其性能提升的关键。StepPRM-RTL 可跨RTL语言泛化，提供了一个可扩展的高保真、可解释代码生成框架，为LLM辅助硬件设计自动化树立了新的标准。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:06

# StepPRM-RTL：基于逐步过程奖励引导的LLM微调以增强RTL综合
来源：https://arxiv.org/html/2606.04246
\(2026\)

###### 摘要\.

数字硬件设计的RTL代码自动生成仍面临重大挑战，原因在于Verilog和VHDL中存在长程推理、多步骤依赖以及严格的正确性约束。我们提出StepPRM-RTL，一种新颖的框架，将逐步轨迹建模、过程奖励建模（PRM）与检索增强微调（RAFT）相结合，以提升基于LLM的RTL代码生成在功能正确性和推理保真度方面的表现。StepPRM-RTL从规范解决方案中构建逐步推理轨迹，每个步骤包含一个推理依据和增量代码修改。过程奖励模型（PRM）对中间步骤进行评估，提供密集反馈，在RAFT微调期间引导强化式更新。蒙特卡洛树搜索（MCTS）探索替代推理路径，通过高质量轨迹丰富训练数据集。逐步奖励与结果感知奖励的整合使模型能够同时学习如何以及为何构建正确的RTL，从而在长程推理方面超越标准的监督或基于结果的训练。在基准Verilog和VHDL数据集上的实验评估表明，StepPRM-RTL在功能正确性和推理保真度指标上优于现有最佳方法超过10%。消融研究证实，PRM引导奖励与逐步轨迹探索的结合是其性能提升的关键。StepPRM-RTL可跨RTL语言泛化，并为高保真、可解释的代码生成提供了可扩展的框架，为LLM辅助硬件设计自动化树立了新的标杆。

RTL代码生成、Verilog、VHDL、大型语言模型、强化学习、过程奖励建模、逐步推理、蒙特卡洛树搜索、MCTS、LLM、RL、RAFT、检索增强微调、硬件设计自动化。

††journalyear:2026††copyright:cc††conference:第63届ACM/IEEE设计自动化会议；2026年7月26–29日；美国加州长滩††booktitle:第63届ACM/IEEE设计自动化会议（DAC '26），2026年7月26–29日，美国加州长滩††doi:10\.1145/3770743\.3804218††isbn:979\-8\-4007\-2254\-7/2026/07††ccs:Hardware 硬件描述语言与编译††ccs:Computing methodologies 自然语言生成

## 1\.引言

寄存器传输级（RTL）代码生成的自动化仍是电子设计自动化（EDA）领域的核心挑战。与通用编程不同，RTL不仅要求语法正确，还要求精确的时序、并发和结构行为来支配电路功能。单个错位的状态更新或不当门控的使能路径就可能在模块间传播，在语法仍然有效的情况下破坏数据路径。因此，生成语义和功能均正确的Verilog/VHDL代码既具有重要意义，又尚未被充分探索，与工业设计生产力直接相关。

当前的RTL生成方法\(Liu et al\.,2023a (https://arxiv.org/html/2606.04246#bib.bib11); Blocklove et al\.,2023 (https://arxiv.org/html/2606.04246#bib.bib4); Lai et al\.,2023 (https://arxiv.org/html/2606.04246#bib.bib9); Fu et al\.,2023 (https://arxiv.org/html/2606.04246#bib.bib6); Vijayaraghavan et al\.,2024a (https://arxiv.org/html/2606.04246#bib.bib18)\)主要依赖于对代码语料库的监督学习，捕捉表层模式，却无法掌握组装正确控制逻辑和数据路径逻辑所需的推理序列。基于结果驱动的方法\(Wei et al\.,2025 (https://arxiv.org/html/2606.04246#bib.bib21); Akyash et al\.,2025 (https://arxiv.org/html/2606.04246#bib.bib2)\)仅在最终设计层面评估正确性，对中间决策（如构建复位逻辑、对齐控制路径转换或协调always块中的使能信号）缺乏监督。因此，这些模型难以处理长程依赖关系，也无法可靠地构建多步骤设计轨迹。

软件代码生成领域的最新进展尝试通过引入过程奖励模型（PRM）来对中间步骤进行评分\(Li et al\.,2025 (https://arxiv.org/html/2606.04246#bib.bib10); Ye et al\.,2025 (https://arxiv.org/html/2606.04246#bib.bib23)\)以解决上述问题。然而，这些PRM在词元级别运作，与硬件语义存在根本性的不匹配：有意义的RTL决策通常跨越语句、模块和信号组，使得词元级别的信用分配噪声大且不稳定。此外，蒙特卡洛树搜索（MCTS）等结构化搜索技术虽已广泛应用于推理密集型领域\(Kemmerling et al\.,2024 (https://arxiv.org/html/2606.04246#bib.bib8); Świechowski et al\.,2023 (https://arxiv.org/html/2606.04246#bib.bib16)\)，但在RTL综合中基本尚未探索。

为解决这些局限性，我们提出**StepPRM-RTL**，一种推理感知的RTL生成框架，引入与硬件语义对齐的步骤级监督。每个推理步骤由可解释的推理依据与对应的代码编辑配对组成，使过程奖励模型（StepPRM）能够以有意义的RTL行为粒度评估决策。StepPRM进一步支持*PRM引导的MCTS探索*，生成器针对同一规范提出替代推理路径，MCTS使用步骤级奖励和轻量级可综合性检查对其进行评估。这产生了一组多样化的高价值轨迹，在超越监督分解的同时，仍以可验证的硬件逻辑为基础。最后，StepPRM-RTL将这些轨迹整合到*检索增强微调（RAFT）*框架\(Zhang et al\.,2024 (https://arxiv.org/html/2606.04246#bib.bib25)\)中。RAFT从类似设计中检索规范推理步骤，并使用基于StepPRM的中间奖励来稳定策略精化。这将步骤级推理监督、结构化轨迹探索和基于检索的上下文整合到一个连贯的训练流水线中，从而实现有效的长程RTL代码生成。

参见说明Figure 1\.StepPRM-RTL总体工作流：训练循环（上）与推理（中）。图1 (https://arxiv.org/html/2606.04246#S1.F1)总结了工作流：（1）提取规范逐步轨迹；（2）使用StepPRM引导的MCTS扩展推理空间；（3）在扩展的轨迹集上精化StepPRM；（4）使用具有步骤级奖励的RAFT更新生成器。这一迭代循环在保持与RTL设计原则语义对齐的同时，共同改进策略和奖励模型。我们的贡献总结如下：

**RTL的步骤级过程奖励：** 我们引入**StepPRM-RTL**，这是首个为HDL定义并评分语义上有意义的中间推理步骤的框架，解决了词元级评分与硬件级行为之间的不匹配问题。

**统一推理流水线：** 我们提出一个集成流水线，将StepPRM引导的MCTS探索与基于RAFT的策略精化相结合，实现稳定的长程信用分配和基于检索的推理。

**全面评估：** 在Verilog和VHDL基准上的大量实验表明，相比监督和基于奖励的基线方法，在步骤级推理质量、pass@k、功能正确性和泛化能力方面均有显著提升。

## 2\.问题形式化

我们研究从行为规范生成功能正确的寄存器传输级（RTL）设计的任务。设$x$表示输入规范（例如，对模块行为的自然语言描述），$c^{\star}$为对应的规范Verilog/VHDL实现。我们不将HDL生成视为扁平词元预测，而是将RTL构建建模为一系列语义上有意义的*设计步骤*。每个步骤表示为$e_t=(r_t,\delta_t)$，其中$r_t$是描述硬件设计决策（如添加同步复位或传播使能信号）的自然语言推理依据，$\delta_t$是应用于当前部分实现的代码编辑。顺序应用编辑产生部分设计$c_0,c_1,\ldots,c_T$，其中$c_t=\delta_t(c_{t-1})$，$c_0$为空或模板化，$c_T$为最终设计。轨迹因此为$\tau=\langle e_1,\ldots,e_T\rangle$，由策略模型$\pi_{\theta}(e_t\mid x,c_{t-1})$生成，该模型同时以规范和演化中的设计状态为条件。

为监督中间推理质量，我们定义步骤级过程奖励模型（StepPRM）$V_{\phi}(e_t,c_{t-1},x)$，为每个步骤分配语义分数，反映结构正确性、与RTL设计意图的一致性以及与硬件语义的对齐程度。最终正确性由基于编译、仿真和测试台验证的结果奖励$R_{\mathrm{out}}(c_T)$评估。在本工作中，我们利用两类数据集：一个内部RTL-IR语料库，包含规范、代码和摘要的组合以及派生的逐步轨迹，用于训练$\pi_{\theta}$和$V_{\phi}$；以及**Verilog-Eval**和**VHDL-Eval**，两个严格保留的基准，仅用于评估泛化能力和功能正确性。

### 2\.1\.目标

我们的目标是学习一个推理感知策略，能够生成具有合理中间决策和正确最终实现的高质量轨迹。形式上，我们最大化预期轨迹价值：

$$\max_{\theta}\;\mathbb{E}_{\tau\sim\pi_{\theta}(\cdot\mid x)}\left[\mathcal{V}(\tau)\right],$$

其中轨迹价值结合了步骤级和结果级奖励：

\(1\)$$\mathcal{V}(\tau)=\alpha\sum_{t=1}^{T}V_{\phi}(e_t,c_{t-1},x)+\beta\,R_{\mathrm{out}}(c_T),$$

其中$\alpha$和$\beta$分别对语义推理质量和最终功能性进行加权。该形式化为长程RTL构建提供了密集的、与硬件对齐的监督。

## 3\.方法论：StepPRM-RTL框架

### 3\.1\.概述

我们提出**StepPRM-RTL**[^1]，一种用于从自然语言或结构化规范生成正确RTL设计的RL引导框架。StepPRM-RTL将RTL生成建模为一系列语义上有意义的设计步骤，并整合四个紧密耦合的组件：（i）从规范RTL代码进行*逐步轨迹构建*以获得高质量推理示范；（ii）步骤级过程奖励模型（StepPRM）$V_{\phi}$，为中间设计决策分配语义分数；（iii）*PRM引导的蒙特卡洛树搜索（MCTS）*，探索替代推理路径并收集多样化的高价值轨迹；（iv）*检索增强微调（RAFT）*，使用检索到的轨迹结合StepPRM奖励精化生成策略$\pi_{\theta}$。该框架作为迭代循环运行：首先将规范RTL实现分解为逐步轨迹以引导StepPRM。初始PRM引导MCTS探索，生成超越规范示例的多样化高价值推理轨迹。这些轨迹随后用于精化PRM，提升其分配语义上有意义的中间奖励的能力。最后，通过RAFT微调更新生成策略$\pi_{\theta}$，将检索到的轨迹上下文与StepPRM分数相结合，以强化正确的中间推理。这一由轨迹收集、PRM精化、策略更新构成的循环反复执行直至收敛，确保奖励模型和生成器持续改进。通过统一可解释的步骤监督、结构化探索和奖励引导的策略精化，StepPRM-RTL提升了长程推理保真度和最终RTL正确性。

[^1]: Step-level Process Reward Model for RTL Synthesis的简称。

### 3\.2\.逐步轨迹构建

**表1\.** 2位计数器的逐步分解，将每个推理依据与对应的代码编辑配对。

StepPRM-RTL的第一个组件是*逐步轨迹构建*，它将规范RTL实现分解为语义上有意义的中间设计步骤。给定规范$x$及其规范RTL实现$c^{\star}$（Verilog或VHDL），我们生成逐步轨迹$\tau=\langle e_1,e_2,\dots,e_T\rangle$，其中$e_t=(s_t,\delta_t)$，每个步骤$e_t$将人工或模型生成的推理陈述$s_t$与应用于部分实现$c_{t-1}$的对应代码编辑$\delta_t$配对。最终部分实现$c_T$应重建$c^{\star}$。

在实践中，该分解利用大型语言模型（LLM）提出推理依据和代码编辑，可选地借助抽象语法树（AST）分析以确保语法和结构一致性。这产生高质量、可解释的示范$(x,\tau)$，为初始化生成策略$\pi_{\theta}$和引导步骤级过程奖励模型（StepPRM）提供监督训练对。与词元级PRM不同，StepPRM学习为整个步骤分配语义奖励，提高了下游强化学习中的稳定性和信用分配能力。表1 (https://arxiv.org/html/2606.04246#S3.T1)展示了简单2位计数器设计分解为逐步轨迹的过程。这些轨迹共同构成初始训练池$\mathcal{D}_0$，用于初始化StepPRM $V_{\phi}$和监督策略$\pi_{\theta}$。此引导阶段建立了密集的步骤级监督，为后续迭代探索和奖励引导的策略精化奠定基础。

### 3\.3\.步骤级过程奖励模型（StepPRM）

给定引导轨迹数据集$\mathcal{D}_0=\{(x,\tau)\}$，步骤级过程奖励模型（StepPRM）的目标是学习一个函数

$$V_{\phi}:(x,e_{1:t})\mapsto\mathbb{R},$$

该函数以规范$x$和部分推理轨迹$e_{1:t}=\langle e_1,\dots,e_t\rangle$为条件，为每个中间步骤$e_t$分配标量奖励。与词元级奖励模型不同，StepPRM在*语义步骤*粒度上运作，能够在长程RTL综合轨迹中实现稳定的信用分配。

#### 3\.3\.1\.基于规范轨迹的监督偏好学习

从规范分解获得的每条逐步轨迹$\tau=\langle e_1,\dots,e_T\rangle$对应一系列高质量中间决策。对于StepPRM训练，我们将每个规范步骤$e_t^{\star}$视为优于由模型生成或通过语法变换获得的扰动或低质量步骤$\tilde{e}_t$。对于每个训练实例，我们构建一个配对：

$$\bigl((x,e_{1:t-1},e_t^{\star}),\,(x,e_{1:t-1},\tilde{e}_t)\bigr),$$

偏好标签为$e_t^{\star}\succ\tilde{e}_t$。StepPRM使用标准偏好排序目标（Bradley–Terry / logistic偏好模型）进行训练

StepPRM-RTL：基于逐步过程奖励引导的LLM微调以增强RTL综合

相似文章

无监督过程奖励模型

Alpha-RTL：用于 RTL 硬件优化的测试时训练

面向逐步模型路由的评分引导过程奖励

通过强化学习改进LLM生成的流程模型质量：奖励函数设计的作用

我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

提交意见反馈