RTL-BenchMT: 通过智能体辅助分析与修订实现RTL生成基准的动态维护

arXiv cs.AI 论文

摘要

RTL-BenchMT是一个智能体框架,能够自动识别并修正有缺陷的案例,检测RTL生成基准中的过拟合问题,从而减少EDA研究中的人工维护工作。

arXiv:2605.15537v1 Announce Type: new Abstract: 本文介绍了RTL-BenchMT,一个用于动态维护RTL生成基准的智能体框架。大语言模型(LLMs)辅助的自动化RTL生成是EDA研究中最重要的发展方向之一。然而,当前的RTL基准面临两个关键挑战:(1)基准中的缺陷案例;(2)对基准的过拟合。这两个问题都难以仅通过人工工程努力解决。为了解决这些问题并系统性地降低人工维护成本,我们提出了一个自动化智能体框架RTL-BenchMT。RTL-BenchMT专注于两个关键应用:(1)自动识别和修正有缺陷的基准案例;(2)自动检测和更新过拟合案例。借助RTL-BenchMT,我们对缺陷和过拟合案例进行了深入分析,并生成了一个精炼后的基准套件,该套件将开源给社区。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:32

# RTL-BenchMT:通过智能体辅助分析与修订实现RTL生成基准的动态维护
来源:https://arxiv.org/html/2605.15537
汪靖†、刘尚†、周汉安、谢志尧\*
香港科技大学 清水湾
\#\{jwangjw,sliudx,hzhoubu\}@connect\.ust\.hk, eezhiyao@ust\.hk

\(2026\)

**摘要**

本文介绍RTL-BenchMT,一种用于动态维护RTL生成基准的智能体框架。大规模语言模型(LLM)辅助的自动化RTL生成是EDA研究中最重要的方向之一。然而,当前的RTL基准面临两个关键挑战:(1)基准中存在缺陷案例;(2)对基准的过拟合。这两个挑战都难以通过纯人工工程努力解决。为了解决这些问题,并*系统性地降低人工维护成本*,我们提出了一个自动化智能体框架RTL-BenchMT。RTL-BenchMT专注于两个关键应用:(1)自动识别并修订有缺陷的基准案例;(2)自动检测并更新过拟合案例。借助RTL-BenchMT,我们对缺陷案例和过拟合案例进行了深入、详细的分析,并生成了一个精炼的基准套件,该套件将向社区开源。

††期刊年份:2026††版权:cc††会议:第63届ACM/IEEE设计自动化会议;2026年7月26-29日;美国加利福尼亚州长滩††书籍标题:第63届ACM/IEEE设计自动化会议(DAC '26),2026年7月26-29日,美国加利福尼亚州长滩††doi:10\.1145/3770743\.3804053††isbn:979-8-4007-2254-7/2026/07\*\*脚注:通讯作者。††脚注:同等贡献。## 1\. 引言

随着大规模语言模型(LLM)的出现,EDA领域正在经历一场变革性的转变。最重要的应用之一是基于LLM的自动化RTL生成(Lu等人,2024 (https://arxiv.org/html/2605.15537#bib.bib11);Liu等人,2024c (https://arxiv.org/html/2605.15537#bib.bib10),2023 (https://arxiv.org/html/2605.15537#bib.bib8);Pinckney等人,2024 (https://arxiv.org/html/2605.15537#bib.bib14),2025 (https://arxiv.org/html/2605.15537#bib.bib15);Liu等人,2024a (https://arxiv.org/html/2605.15537#bib.bib9);Zhao等人,2024b (https://arxiv.org/html/2605.15537#bib.bib19);Ho等人,2024 (https://arxiv.org/html/2605.15537#bib.bib6);Cui等人,2024 (https://arxiv.org/html/2605.15537#bib.bib5);Yao等人,2024 (https://arxiv.org/html/2605.15537#bib.bib17);Zhao等人,2024a (https://arxiv.org/html/2605.15537#bib.bib18);Akyash等人,2025 (https://arxiv.org/html/2605.15537#bib.bib3);Ma等人,2024 (https://arxiv.org/html/2605.15537#bib.bib12);Pei等人,2024 (https://arxiv.org/html/2605.15537#bib.bib13)),其中LLM根据自然语言描述生成所需的RTL设计。这些工作依赖于开放的RTL基准(Lu等人,2024 (https://arxiv.org/html/2605.15537#bib.bib11);Liu等人,2023 (https://arxiv.org/html/2605.15537#bib.bib8);Pinckney等人,2025 (https://arxiv.org/html/2605.15537#bib.bib15))来衡量功能正确性并比较模型。尽管取得了巨大进展,但我们发现现有的RTL生成基准存在两个根本性问题。

**挑战1. 基准中的缺陷案例。** 现有的RTL基准不可避免地包含缺陷案例,这些案例可能歪曲LLM的真实能力。一些任务在设计描述与参考测试台之间存在不一致。另一些任务则忽略了关键的实现细节。此类缺陷可能导致本应正确的设计被标记为失败,从而产生不公平或误导性的评估。然而,在大型基准中系统性地识别和修订缺陷案例非常耗费人力,并且需要大量的RTL和验证专业知识。

**挑战2. 对基准的过拟合。** 公开的RTL基准很容易被LLM过拟合,导致性能结果越来越过于乐观。由于基准必须公开可用以便进行研究,新的LLM解决方案往往会过拟合基准数据(Cohen-Inger等人,2025 (https://arxiv.org/html/2605.15537#bib.bib4)),要么通过记忆训练示例,要么利用描述中的表面模式。检测这种过拟合对于公平、无偏地评估LLM至关重要。据我们所知,目前尚无实用的框架可以自动检测和量化RTL生成基准上的过拟合。

参考图注图1。*(1)缺陷案例*和*(2)过拟合*是RTL生成基准面临的两个重大挑战。*RTL-BenchMT*通过动态维护基准来解决这些挑战。*RTL-BenchMT*在两个重要方面做出贡献:(1)自动识别并修订缺陷案例;(2)自动检测并更新过拟合案例。参考图注图2。RTL-BenchMT智能体框架概览。多智能体系统通过指定接口与环境交互。该智能体有三个重要的自动化阶段:*(1)故障分析过程,(2)基准修订过程,以及(3)过拟合检测。*在这项工作中,我们提出了RTL-BenchMT,一种用于动态维护RTL生成基准的智能体框架。如图1 (https://arxiv.org/html/2605.15537#S1.F1)所示,RTL-BenchMT将多个专门智能体组织成一个自动化工作流,持续分析基准、修订缺陷案例并探测过拟合。该框架支持两个主要能力:(1)自动识别并修订缺陷案例;(2)自动检测并更新过拟合案例。人类工程师应保持参与,审核RTL-BenchMT的建议并批准最终的基准更新。

为了支持有效的维护,我们设计了多个具有不同角色的专门智能体。RTL-BenchMT通过三个过程协调这些智能体。*过程1*(*故障分析*)涉及*故障分析智能体*,该智能体检查失败案例的日志并识别可能有缺陷的基准案例。*过程2*(*基准修订*)修订已识别案例的设计描述。在这个过程中,*描述修订智能体*首先提出候选修订,然后*描述审查智能体*根据严格规则验证修订。*过程3*(*过拟合检测*)通过重写设计描述而不改变其语义来应对过拟合;此过程涉及*描述更新智能体*和*描述审查智能体*。每个智能体都在*迭代推理*范式下实现,其中智能体遵循三步循环:*生成思考*、*采取行动*和*获取观察*。

**缺陷案例识别与修订。** RTL-BenchMT自动定位有问题的任务并提出精炼的描述。借助RTL-BenchMT,我们提出了一套精炼基准,将向公众开源。使用*过程1*和*过程2*,RTL-BenchMT在基准上运行多个LLM,并汇总持续失败的案例。然后,RTL-BenchMT驱动修订智能体识别缺陷案例。接着,分析智能体将提出对缺陷案例的修订。最后,审查智能体将使用严格规则验证修订。111我们在https://github.com/hkust-zhiyao/RTL-BenchMT.git开源了基准中修订后的案例。

**过拟合检测与更新。** RTL-BenchMT重写描述,以暴露可能依赖表面模式的过拟合模型。*过程3(过拟合检测过程)*控制描述更新和审查智能体,生成语义等价的描述。将基于更新后的描述评估和比较LLM。如果一个模型在原始描述上通过但在重写的描述上失败,则被认为存在过拟合。这个简单的标准提供了每个案例和每个模型过拟合强度的自动信号,同时重写的描述也增加了未来评估的基准多样性。

本文的其余部分组织如下。第2节 (https://arxiv.org/html/2605.15537#S2)介绍了RTL-BenchMT框架和智能体设计。第3节 (https://arxiv.org/html/2605.15537#S3)讨论了已识别的缺陷案例及相应的修订策略。第4节 (https://arxiv.org/html/2605.15537#S4)提供了缺陷案例识别和过拟合检测的定量结果。

## 2\. RTL-BenchMT智能体框架

在本节中,我们介绍RTL-BenchMT,一种用于动态维护RTL生成基准的智能体框架,如图2 (https://arxiv.org/html/2605.15537#S1.F2)所示。在接下来的部分中,我们首先提供*RTL-BenchMT*的概述(第2.1节 (https://arxiv.org/html/2605.15537#S2.SS1)),包括执行过程和智能体。然后我们详细介绍*应用1:缺陷识别与修订*(第2.2节 (https://arxiv.org/html/2605.15537#S2.SS2))和*应用2:过拟合检测与更新*(第2.3节 (https://arxiv.org/html/2605.15537#S2.SS3))中使用的技术。最后,我们介绍基础设施(第2.4节 (https://arxiv.org/html/2605.15537#S2.SS4)),包括环境和接口。

### 2.1. RTL-BenchMT概述

RTL-BenchMT框架包含三个主要过程,如图2 (https://arxiv.org/html/2605.15537#S1.F2)所示。我们首先提供三个主要过程的概述:*(1)故障分析过程*、*(2)基准修订过程*和*(3)过拟合检测过程*。在框架内,*管理器智能体*协调三个核心过程以支持两个关键应用。具体来说,*(1)故障分析过程*负责识别基准中的缺陷案例。在此过程中,故障分析智能体通过我们精心设计的分析推理模板执行核心任务:*识别缺陷案例*。*(2)基准修订过程*根据识别结果修订缺陷案例。在此过程中,描述修订智能体将首先提出修订,然后描述审查智能体将使用严格的语义规则验证修订后的描述。*(3)过拟合检测过程*通过描述更新策略检测过拟合案例。在此过程中,描述更新智能体首先生成描述变体,修改格式同时保留原始语义和功能。LLM在描述变体上的性能将揭示过拟合的实例。

参考图注图3。自动识别缺陷案例示例。**RTL-BenchMT的智能体。** *RTLBench-MT*框架中的所有智能体都遵循基本的*迭代推理*范式。在每次迭代i时,智能体执行三步操作:(1)生成思考,(2)采取行动,以及(3)获取观察。每个智能体都有一个动作列表:'COMPARE_CODES'、'REASON'、'CHECK_INSTRUCTION'等。在每次迭代i时,智能体基于思考(记为T_i)选择一个动作(记为A_i),然后从环境(Env)接收一个观察(记为O_i)。给定前一步的观察O_{i-1},智能体为下一步生成思考T_i。然后智能体基于思考T_i采取下一步动作A_i。动作完成后,将返回新的观察O_i。这个过程可以表述如下:

(1) T_i = Agent(O_{i-1}); A_i = Agent(T_i); O_i = Env(A_i)

通常,初始观察O_0是评估结果。以*(1)故障分析过程*为例,分析智能体的初始观察O_0是来自LLM生成的RTL代码的评估结果。*RTL-BenchMT*工作流将首先在一套多样化的LLM上执行标准化评估,并收集最常见的失败案例。这些失败案例将作为观察O_0传播给故障分析智能体。该智能体将首先基于评估结果生成思考T_1,并决定下一个动作A_1(例如,'CHECK_INSTRUCTION',它读取设计描述文件),并将设计描述D_design的详细内容作为新的观察O_1返回。

### 2.2. 应用1:缺陷识别与修订

自动化缺陷案例识别依赖于有效的故障案例分析,这既具有挑战性又耗时。RTL-BenchMT框架通过自动化故障分析过程来应对这一重大挑战。图2 (https://arxiv.org/html/2605.15537#S1.F2)展示了自动化过程,其中*故障分析过程*和*基准修订过程*正在执行任务。RTL-BenchMT工作流将首先在一套多样化的LLM上执行标准化评估,并收集最常见的失败案例。这些失败案例将被传播给故障分析智能体。

故障分析智能体遵循三步*思考-行动-观察*推理范式。分析智能体对失败案例应用迭代观察和推理,以识别设计描述中的缺陷。我们为分析智能体设计了一组动作和一个迭代推理范式。

1 迭代1. 代码不匹配分析;
2 O_0 = 仿真结果;动作 A_1 = COMPARE_CODES;
3 观察 O_1 = {生成的代码, 参考代码};
4 迭代2. 代码正确性分析;
5 思考 T_2 = Agent(O_1);动作 A_2 = CHECK_INSTRUCTION;
6 观察 O_2 = 设计描述 D_design;
7 迭代3. 描述不匹配检测;
8 思考 T_3 = Agent(O_2);
9 如果*T_3中代码正确*则
10 动作 A_3 = REASON;上下文 = {O_1, O_2, O_3};
11 观察 O_3 = Agent(上下文) = {IS_FLAW, R_flaw};
12
13

算法1 分析推理模板**分析推理模板。** 算法1 (https://arxiv.org/html/2605.15537#alg1)说明了三迭代模板。在第一次迭代(*迭代1*)中,分析智能体分析代码之间的不匹配(观察O_1)。然后,在*迭代2*中,智能体检查设计描述(观察O_2),以验证生成的代码是否正确实现了描述中指定的设计(如果在T_3中'代码正确')。如果生成的代码被识别为正确,则LLM的缺陷被排除在失败原因之外。最后,在*迭代3*中,智能体基于之前的观察(上下文={O_1, O_2, O_3})进行分析(动作A_3=REASON)。在此迭代中,智能体将特别关注设计描述和测试台以识别不匹配。下面我们提供一个示例来展示详细结果。

**示例。** 图3 (https://arxiv.org/html/2605.15537#S2.F3)说明了自动化故障分析过程。在输入中,设计描述包含一个

相似文章

Alpha-RTL:用于 RTL 硬件优化的测试时训练

arXiv cs.LG

Alpha-RTL (TTT-RTL) 引入了一种用于 RTL 硬件优化的测试时训练框架,利用带有 EDA 反馈的强化学习来优化 LLM 生成的设计。它在基准测试上实现了显著的 PPA 减少。

仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估

Hugging Face Daily Papers

RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。

Anchor:缓解智能体基准生成中的工件漂移

arXiv cs.AI

Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。