RTL-BenchMT: 通过智能体辅助分析与修订实现RTL生成基准的动态维护

arXiv cs.AI 2026/05/18 04:00 论文

rtl-generation benchmark-maintenance agentic-framework llm eda hardware-design automation

摘要

RTL-BenchMT是一个智能体框架，能够自动识别并修正有缺陷的案例，检测RTL生成基准中的过拟合问题，从而减少EDA研究中的人工维护工作。

arXiv:2605.15537v1 Announce Type: new Abstract: 本文介绍了RTL-BenchMT，一个用于动态维护RTL生成基准的智能体框架。大语言模型（LLMs）辅助的自动化RTL生成是EDA研究中最重要的发展方向之一。然而，当前的RTL基准面临两个关键挑战：（1）基准中的缺陷案例；（2）对基准的过拟合。这两个问题都难以仅通过人工工程努力解决。为了解决这些问题并系统性地降低人工维护成本，我们提出了一个自动化智能体框架RTL-BenchMT。RTL-BenchMT专注于两个关键应用：（1）自动识别和修正有缺陷的基准案例；（2）自动检测和更新过拟合案例。借助RTL-BenchMT，我们对缺陷和过拟合案例进行了深入分析，并生成了一个精炼后的基准套件，该套件将开源给社区。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:32

# RTL-BenchMT：通过智能体辅助分析与修订实现RTL生成基准的动态维护
来源：https://arxiv.org/html/2605.15537
汪靖†、刘尚†、周汉安、谢志尧\*
香港科技大学 清水湾
\#\{jwangjw,sliudx,hzhoubu\}@connect\.ust\.hk, eezhiyao@ust\.hk

\(2026\)

**摘要**

本文介绍RTL-BenchMT，一种用于动态维护RTL生成基准的智能体框架。大规模语言模型（LLM）辅助的自动化RTL生成是EDA研究中最重要的方向之一。然而，当前的RTL基准面临两个关键挑战：（1）基准中存在缺陷案例；（2）对基准的过拟合。这两个挑战都难以通过纯人工工程努力解决。为了解决这些问题，并*系统性地降低人工维护成本*，我们提出了一个自动化智能体框架RTL-BenchMT。RTL-BenchMT专注于两个关键应用：（1）自动识别并修订有缺陷的基准案例；（2）自动检测并更新过拟合案例。借助RTL-BenchMT，我们对缺陷案例和过拟合案例进行了深入、详细的分析，并生成了一个精炼的基准套件，该套件将向社区开源。

††期刊年份：2026††版权：cc††会议：第63届ACM/IEEE设计自动化会议；2026年7月26-29日；美国加利福尼亚州长滩††书籍标题：第63届ACM/IEEE设计自动化会议（DAC '26），2026年7月26-29日，美国加利福尼亚州长滩††doi：10\.1145/3770743\.3804053††isbn：979-8-4007-2254-7/2026/07\*\*脚注：通讯作者。††脚注：同等贡献。## 1\. 引言

随着大规模语言模型（LLM）的出现，EDA领域正在经历一场变革性的转变。最重要的应用之一是基于LLM的自动化RTL生成（Lu等人，2024 (https://arxiv.org/html/2605.15537#bib.bib11)；Liu等人，2024c (https://arxiv.org/html/2605.15537#bib.bib10)，2023 (https://arxiv.org/html/2605.15537#bib.bib8)；Pinckney等人，2024 (https://arxiv.org/html/2605.15537#bib.bib14)，2025 (https://arxiv.org/html/2605.15537#bib.bib15)；Liu等人，2024a (https://arxiv.org/html/2605.15537#bib.bib9)；Zhao等人，2024b (https://arxiv.org/html/2605.15537#bib.bib19)；Ho等人，2024 (https://arxiv.org/html/2605.15537#bib.bib6)；Cui等人，2024 (https://arxiv.org/html/2605.15537#bib.bib5)；Yao等人，2024 (https://arxiv.org/html/2605.15537#bib.bib17)；Zhao等人，2024a (https://arxiv.org/html/2605.15537#bib.bib18)；Akyash等人，2025 (https://arxiv.org/html/2605.15537#bib.bib3)；Ma等人，2024 (https://arxiv.org/html/2605.15537#bib.bib12)；Pei等人，2024 (https://arxiv.org/html/2605.15537#bib.bib13)），其中LLM根据自然语言描述生成所需的RTL设计。这些工作依赖于开放的RTL基准（Lu等人，2024 (https://arxiv.org/html/2605.15537#bib.bib11)；Liu等人，2023 (https://arxiv.org/html/2605.15537#bib.bib8)；Pinckney等人，2025 (https://arxiv.org/html/2605.15537#bib.bib15)）来衡量功能正确性并比较模型。尽管取得了巨大进展，但我们发现现有的RTL生成基准存在两个根本性问题。

**挑战1. 基准中的缺陷案例。** 现有的RTL基准不可避免地包含缺陷案例，这些案例可能歪曲LLM的真实能力。一些任务在设计描述与参考测试台之间存在不一致。另一些任务则忽略了关键的实现细节。此类缺陷可能导致本应正确的设计被标记为失败，从而产生不公平或误导性的评估。然而，在大型基准中系统性地识别和修订缺陷案例非常耗费人力，并且需要大量的RTL和验证专业知识。

**挑战2. 对基准的过拟合。** 公开的RTL基准很容易被LLM过拟合，导致性能结果越来越过于乐观。由于基准必须公开可用以便进行研究，新的LLM解决方案往往会过拟合基准数据（Cohen-Inger等人，2025 (https://arxiv.org/html/2605.15537#bib.bib4)），要么通过记忆训练示例，要么利用描述中的表面模式。检测这种过拟合对于公平、无偏地评估LLM至关重要。据我们所知，目前尚无实用的框架可以自动检测和量化RTL生成基准上的过拟合。

参考图注图1。*（1）缺陷案例*和*（2）过拟合*是RTL生成基准面临的两个重大挑战。*RTL-BenchMT*通过动态维护基准来解决这些挑战。*RTL-BenchMT*在两个重要方面做出贡献：（1）自动识别并修订缺陷案例；（2）自动检测并更新过拟合案例。参考图注图2。RTL-BenchMT智能体框架概览。多智能体系统通过指定接口与环境交互。该智能体有三个重要的自动化阶段：*（1）故障分析过程，（2）基准修订过程，以及（3）过拟合检测。*在这项工作中，我们提出了RTL-BenchMT，一种用于动态维护RTL生成基准的智能体框架。如图1 (https://arxiv.org/html/2605.15537#S1.F1)所示，RTL-BenchMT将多个专门智能体组织成一个自动化工作流，持续分析基准、修订缺陷案例并探测过拟合。该框架支持两个主要能力：（1）自动识别并修订缺陷案例；（2）自动检测并更新过拟合案例。人类工程师应保持参与，审核RTL-BenchMT的建议并批准最终的基准更新。

为了支持有效的维护，我们设计了多个具有不同角色的专门智能体。RTL-BenchMT通过三个过程协调这些智能体。*过程1*（*故障分析*）涉及*故障分析智能体*，该智能体检查失败案例的日志并识别可能有缺陷的基准案例。*过程2*（*基准修订*）修订已识别案例的设计描述。在这个过程中，*描述修订智能体*首先提出候选修订，然后*描述审查智能体*根据严格规则验证修订。*过程3*（*过拟合检测*）通过重写设计描述而不改变其语义来应对过拟合；此过程涉及*描述更新智能体*和*描述审查智能体*。每个智能体都在*迭代推理*范式下实现，其中智能体遵循三步循环：*生成思考*、*采取行动*和*获取观察*。

**缺陷案例识别与修订。** RTL-BenchMT自动定位有问题的任务并提出精炼的描述。借助RTL-BenchMT，我们提出了一套精炼基准，将向公众开源。使用*过程1*和*过程2*，RTL-BenchMT在基准上运行多个LLM，并汇总持续失败的案例。然后，RTL-BenchMT驱动修订智能体识别缺陷案例。接着，分析智能体将提出对缺陷案例的修订。最后，审查智能体将使用严格规则验证修订。111我们在https://github.com/hkust-zhiyao/RTL-BenchMT.git开源了基准中修订后的案例。

**过拟合检测与更新。** RTL-BenchMT重写描述，以暴露可能依赖表面模式的过拟合模型。*过程3（过拟合检测过程）*控制描述更新和审查智能体，生成语义等价的描述。将基于更新后的描述评估和比较LLM。如果一个模型在原始描述上通过但在重写的描述上失败，则被认为存在过拟合。这个简单的标准提供了每个案例和每个模型过拟合强度的自动信号，同时重写的描述也增加了未来评估的基准多样性。

本文的其余部分组织如下。第2节 (https://arxiv.org/html/2605.15537#S2)介绍了RTL-BenchMT框架和智能体设计。第3节 (https://arxiv.org/html/2605.15537#S3)讨论了已识别的缺陷案例及相应的修订策略。第4节 (https://arxiv.org/html/2605.15537#S4)提供了缺陷案例识别和过拟合检测的定量结果。

## 2\. RTL-BenchMT智能体框架

在本节中，我们介绍RTL-BenchMT，一种用于动态维护RTL生成基准的智能体框架，如图2 (https://arxiv.org/html/2605.15537#S1.F2)所示。在接下来的部分中，我们首先提供*RTL-BenchMT*的概述（第2.1节 (https://arxiv.org/html/2605.15537#S2.SS1)），包括执行过程和智能体。然后我们详细介绍*应用1：缺陷识别与修订*（第2.2节 (https://arxiv.org/html/2605.15537#S2.SS2)）和*应用2：过拟合检测与更新*（第2.3节 (https://arxiv.org/html/2605.15537#S2.SS3)）中使用的技术。最后，我们介绍基础设施（第2.4节 (https://arxiv.org/html/2605.15537#S2.SS4)），包括环境和接口。

### 2.1. RTL-BenchMT概述

RTL-BenchMT框架包含三个主要过程，如图2 (https://arxiv.org/html/2605.15537#S1.F2)所示。我们首先提供三个主要过程的概述：*（1）故障分析过程*、*（2）基准修订过程*和*（3）过拟合检测过程*。在框架内，*管理器智能体*协调三个核心过程以支持两个关键应用。具体来说，*（1）故障分析过程*负责识别基准中的缺陷案例。在此过程中，故障分析智能体通过我们精心设计的分析推理模板执行核心任务：*识别缺陷案例*。*（2）基准修订过程*根据识别结果修订缺陷案例。在此过程中，描述修订智能体将首先提出修订，然后描述审查智能体将使用严格的语义规则验证修订后的描述。*（3）过拟合检测过程*通过描述更新策略检测过拟合案例。在此过程中，描述更新智能体首先生成描述变体，修改格式同时保留原始语义和功能。LLM在描述变体上的性能将揭示过拟合的实例。

参考图注图3。自动识别缺陷案例示例。**RTL-BenchMT的智能体。** *RTLBench-MT*框架中的所有智能体都遵循基本的*迭代推理*范式。在每次迭代i时，智能体执行三步操作：（1）生成思考，（2）采取行动，以及（3）获取观察。每个智能体都有一个动作列表：'COMPARE_CODES'、'REASON'、'CHECK_INSTRUCTION'等。在每次迭代i时，智能体基于思考（记为T_i）选择一个动作（记为A_i），然后从环境（Env）接收一个观察（记为O_i）。给定前一步的观察O_{i-1}，智能体为下一步生成思考T_i。然后智能体基于思考T_i采取下一步动作A_i。动作完成后，将返回新的观察O_i。这个过程可以表述如下：

(1) T_i = Agent(O_{i-1}); A_i = Agent(T_i); O_i = Env(A_i)

通常，初始观察O_0是评估结果。以*（1）故障分析过程*为例，分析智能体的初始观察O_0是来自LLM生成的RTL代码的评估结果。*RTL-BenchMT*工作流将首先在一套多样化的LLM上执行标准化评估，并收集最常见的失败案例。这些失败案例将作为观察O_0传播给故障分析智能体。该智能体将首先基于评估结果生成思考T_1，并决定下一个动作A_1（例如，'CHECK_INSTRUCTION'，它读取设计描述文件），并将设计描述D_design的详细内容作为新的观察O_1返回。

### 2.2. 应用1：缺陷识别与修订

自动化缺陷案例识别依赖于有效的故障案例分析，这既具有挑战性又耗时。RTL-BenchMT框架通过自动化故障分析过程来应对这一重大挑战。图2 (https://arxiv.org/html/2605.15537#S1.F2)展示了自动化过程，其中*故障分析过程*和*基准修订过程*正在执行任务。RTL-BenchMT工作流将首先在一套多样化的LLM上执行标准化评估，并收集最常见的失败案例。这些失败案例将被传播给故障分析智能体。

故障分析智能体遵循三步*思考-行动-观察*推理范式。分析智能体对失败案例应用迭代观察和推理，以识别设计描述中的缺陷。我们为分析智能体设计了一组动作和一个迭代推理范式。

1 迭代1. 代码不匹配分析；
2 O_0 = 仿真结果；动作 A_1 = COMPARE_CODES；
3 观察 O_1 = {生成的代码, 参考代码}；
4 迭代2. 代码正确性分析；
5 思考 T_2 = Agent(O_1)；动作 A_2 = CHECK_INSTRUCTION；
6 观察 O_2 = 设计描述 D_design；
7 迭代3. 描述不匹配检测；
8 思考 T_3 = Agent(O_2)；
9 如果*T_3中代码正确*则
10 动作 A_3 = REASON；上下文 = {O_1, O_2, O_3}；
11 观察 O_3 = Agent(上下文) = {IS_FLAW, R_flaw}；
12
13

算法1 分析推理模板**分析推理模板。** 算法1 (https://arxiv.org/html/2605.15537#alg1)说明了三迭代模板。在第一次迭代（*迭代1*）中，分析智能体分析代码之间的不匹配（观察O_1）。然后，在*迭代2*中，智能体检查设计描述（观察O_2），以验证生成的代码是否正确实现了描述中指定的设计（如果在T_3中'代码正确'）。如果生成的代码被识别为正确，则LLM的缺陷被排除在失败原因之外。最后，在*迭代3*中，智能体基于之前的观察（上下文={O_1, O_2, O_3}）进行分析（动作A_3=REASON）。在此迭代中，智能体将特别关注设计描述和测试台以识别不匹配。下面我们提供一个示例来展示详细结果。

**示例。** 图3 (https://arxiv.org/html/2605.15537#S2.F3)说明了自动化故障分析过程。在输入中，设计描述包含一个

RTL-BenchMT: 通过智能体辅助分析与修订实现RTL生成基准的动态维护

相似文章

Alpha-RTL：用于 RTL 硬件优化的测试时训练

MANTRA：为工具使用型 LLM 代理综合生成经 SMT 验证的合规基准

面向LLM驱动HDL设计与验证数据策展的结构化测试台生成

仅靠基准测试不够：RAMP——生产系统中代理模型的运行时评估

Anchor：缓解智能体基准生成中的工件漂移

提交意见反馈