LithoGRPO:基于GRPO强化流匹配的快速逆光刻
摘要
LithoGRPO引入了一个新颖的框架,将流匹配与基于GRPO的强化学习相结合,用于快速且高质量的逆光刻掩模优化,在保持高效生成的同时实现了最先进的性能。
arXiv:2606.00228v1 公告类型:新
摘要:在半导体制造中,光刻技术通过光学掩模将电路布局投影到硅晶圆上。随着电路特征尺寸缩小到光波长以下,光学衍射导致印刷图案偏离预期布局。逆光刻技术(ILT)通过生成优化的掩模来应对这一挑战,从而提高图案转移到晶圆上的保真度。虽然ILT类似于图像合成任务,但它依赖于显式的物理指标来评估掩模,这限制了现有生成模型的适用性。我们提出了LithoGRPO,这是一个将流匹配范式与基于GRPO的强化学习(RL)微调相结合的ILT框架,能够针对给定的目标布局高效探索多种掩模。与纯粹基于生成或优化的方法不同,LithoGRPO中的RL利用了ILT中明确定义的、基于物理的奖励函数,从而能够在复杂且考虑工艺的约束下进行优化。据我们所知,这是首个将流匹配和RL统一用于掩模优化的框架。为了提高RL采样效率,我们提出了一种用于可制造性评估的快速计点算法,在保持传统计点指标的掩模排序的同时,实现了超过130倍的加速。大量实验表明,LithoGRPO在基于优化和基于学习的方法中均实现了最先进的性能,同时保持了高效的掩模生成。
查看缓存全文
缓存时间: 2026/06/02 15:40
# LithoGRPO: 基于GRPO强化流匹配的快速逆光刻技术
来源:https://arxiv.org/html/2606.00228
Xuyuan Xiong, Zeyue Xue, Guojin Chen, Jing Wang, Xihui Liu, Rui Zhang, Robert Mullins, Bei Yu, Ping Luo
###### 摘要
在半导体制造中,光刻技术通过光学掩模将电路版图投影到硅晶圆上。随着电路特征尺寸缩小到光波长以下,光学衍射导致印刷图案偏离预期版图。逆光刻技术(Inverse Lithography Technology, ILT)通过生成优化掩模来应对这一挑战,从而增强图案转移到晶圆上的保真度。虽然ILT类似于图像合成任务,但其对掩模评估依赖显式物理指标,限制了现有生成模型的适用性。我们提出LithoGRPO,一个将流匹配范式与基于GRPO的强化学习(RL)微调相结合的ILT框架,能够针对给定目标版图高效探索多样化的掩模。与纯生成或基于优化的方法不同,LithoGRPO中的RL利用ILT明确定义、基于物理的奖励函数,使得在复杂、工艺感知约束下进行优化成为可能。据我们所知,这是首个将流匹配与RL统一用于掩模优化的框架。为了提高RL采样效率,我们提出一种用于可制造性评估的快速曝光量统计算法,实现了超过130倍的加速,同时很大程度上保留了传统曝光量指标的掩模排名。大量实验表明,LithoGRPO在基于优化和基于学习的方法中均取得了最先进的性能,同时保持了高效的掩模生成。代码已开源:github.com/laiyao1/LithoGRPO (https://github.com/laiyao1/LithoGRPO)。
机器学习,ICML
## 1 引言
光刻是半导体制造中的基础工艺,将电路版图印刷到硅晶圆上(Levinson,2005(https://arxiv.org/html/2606.00228#bib.bib25);Erdmann,2021(https://arxiv.org/html/2606.00228#bib.bib43))。如图1(https://arxiv.org/html/2606.00228#S1.F1)所示,光源将掩模图案投影到覆盖晶圆的光敏光刻胶层上。经过曝光和显影后,剩余的光刻胶图像定义了印刷的电路版图。随着技术节点遵循摩尔定律持续缩小,图案特征变得比曝光波长更小。因此,直接光学投影受到衍射和光学像差的影响,导致印刷图案偏离预期版图,如图1(https://arxiv.org/html/2606.00228#S1.F1)(a)所示。
请参见图注
图1:逆光刻技术。(a) 由于光学和工艺限制,直接投影导致抗蚀剂图像中出现图案失真。(b) 逆光刻技术(ILT)优化掩模以补偿这些失真,在晶圆上精确再现目标版图。
请参见图注
请参见图注
图2:ILT结果可视化与对比。(左) 光刻过程示意图。(右) 相同目标版图的不同ILT方法结果。对于**空间像**,颜色强度表示曝光水平。对于**抗蚀剂图像**,虚线轮廓表示目标版图,黄色区域表示模拟的抗蚀剂图像,红色框标出关键成像差异。**PV Band**突出显示工艺变化区域,红色区域越大表示偏差越大。**最佳**和**次佳**结果分别用粗体和下划线标出。建议在400%缩放下查看。
传统上,光学邻近效应校正(OPC)通过基于经验规则或预校准模型局部调整掩模几何形状来减轻光刻失真。基于规则的OPC应用手工修正启发式方法,但缺乏全局优化能力,对复杂图案的灵活性不足;而基于模型的OPC则使用成像模拟进行迭代边缘细化,实现了更高的精度,但仍局限于边缘级修正(即对现有掩模边缘进行局部位移)(Poonawala和Milanfar,2007(https://arxiv.org/html/2606.00228#bib.bib71);Pang,2021(https://arxiv.org/html/2606.00228#bib.bib72);Yang等人,2025(https://arxiv.org/html/2606.00228#bib.bib51))。近期提升OPC适应性的努力包括RL-OPC(Liang等人,2024a(https://arxiv.org/html/2606.00228#bib.bib83)),它利用强化学习直接优化显式性能指标并提升修正能力,但仍处于OPC框架内的边缘层面。为克服OPC有限的边缘级修正能力,逆光刻技术将掩模合成表述为像素级逆成像问题,实现了对超出OPC能力范围的光学和工艺效应的系统性、基于物理的校正(Yang等人,2025(https://arxiv.org/html/2606.00228#bib.bib51)),如图1(https://arxiv.org/html/2606.00228#S1.F1)(b)所示。
现有ILT方法通常分为两类:基于优化的方法和基于学习的方法。基于优化的方法(Gao等人,2014(https://arxiv.org/html/2606.00228#bib.bib59);Yu等人,2022(https://arxiv.org/html/2606.00228#bib.bib60);Sun等人,2023b(https://arxiv.org/html/2606.00228#bib.bib61),2025(https://arxiv.org/html/2606.00228#bib.bib62);Jia和Lam,2010(https://arxiv.org/html/2606.00228#bib.bib69))将光刻成像过程建模为可微系统,并通过梯度下降优化可微目标函数。然而,它们无法直接处理不可微目标函数,且迭代优化过程导致计算成本高。基于学习的方法(Zhu等人,2023(https://arxiv.org/html/2606.00228#bib.bib63);Yang等人,2022b(https://arxiv.org/html/2606.00228#bib.bib66),a(https://arxiv.org/html/2606.00228#bib.bib65);Chen等人,2020(https://arxiv.org/html/2606.00228#bib.bib68);Jiang等人,2020(https://arxiv.org/html/2606.00228#bib.bib67),2021(https://arxiv.org/html/2606.00228#bib.bib64);Wu等人,2025a(https://arxiv.org/html/2606.00228#bib.bib85),b(https://arxiv.org/html/2606.00228#bib.bib86);Jin等人,2025a(https://arxiv.org/html/2606.00228#bib.bib13))旨在通过从配对的掩模和目标版图训练图像到图像模型来提高效率,但其训练数据通常来自基于优化的结果,限制了质量和泛化能力。此外,这些方法仍依赖可微损失,无法优化不可微目标函数。
在学习方法中,基于扩散的变体(Wang等人,2025(https://arxiv.org/html/2606.00228#bib.bib38);Jiang等人,2025(https://arxiv.org/html/2606.00228#bib.bib39))实现了高保真合成,但受限于缓慢的多步采样,制约了高分辨率ILT的可扩展性。ILILT(Yang和Ren,2024(https://arxiv.org/html/2606.00228#bib.bib70))采用混合优化-学习框架来提升端到端预测保真度,但计算成本高且无法优化不可微指标。
请参见图注
图3:ILT评估指标。L2和EPE评估成像保真度:L2测量与目标之间的像素差异,而EPE在阈值(Max EPE)内检查边缘偏差。Shot评估掩模可制造性,PVB测量工艺变化鲁棒性。L2和PVB关于掩模是可微的(在SFT/RLFT中优化),而EPE和Shot是不可微的,通过RLFT处理。这些指标相互关联且可能冲突。例如,提高成像保真度(L2/EPE)通常需要更精细的掩模特征,这会增加Shot计数。
为应对这些挑战,我们提出LithoGRPO,一种基于流匹配的生成式ILT框架,通过GRPO驱动的强化学习(RL)进行优化,灵感来自近期GRPO引导的图像合成方法(Shao等人,2024(https://arxiv.org/html/2606.00228#bib.bib52);Guo等人,2025(https://arxiv.org/html/2606.00228#bib.bib53);Liu等人,2025b(https://arxiv.org/html/2606.00228#bib.bib54);Xue等人,2025(https://arxiv.org/html/2606.00228#bib.bib55);Li等人,2025(https://arxiv.org/html/2606.00228#bib.bib56))。它执行对掩模合成的生成模型进行奖励引导的微调,实现对可微和不可微指标的统一优化。这种设置特别适合光刻,因为显式且确定性的指标自然地为强化优化提供了明确的奖励。与以往工作不同,LithoGRPO将完整的掩模生成建模为整流流(Liu等人,2023(https://arxiv.org/html/2606.00228#bib.bib45)),提供了噪声与数据之间的确定性一步传输,避免了扩散模型的缓慢多步去噪,提高了采样效率和稳定性。训练包括三个阶段:(1) 掩模-目标配准的预训练;(2) 优化可微指标的监督微调;(3) 通过基于SDE的GRPO探索联合优化可微和不可微指标的RL微调。我们进一步提出一种基于最小重叠矩形分解的超快速曝光量评估算法,将指标计算从约1分钟减少到0.2秒。总体而言,LithoGRPO在整流流框架下统一了基于梯度的学习和强化优化,联合优化可微和不可微指标,实现了高效且全面的ILT。
我们的主要贡献总结如下:
- •据我们所知,LithoGRPO是**首个**将流匹配引入ILT的工作,将掩模生成建模为以目标版图为条件的整流流匹配过程。
- •一种针对ILT任务定制、具有显式奖励定义的基于GRPO的强化学习微调(RLFT)方案,实现了在统一框架下联合优化可微和不可微光刻指标。
- •一种超快速曝光量统计算法,将掩模评估加速130倍到490倍,同时大致保留排名,显著提高了RL采样效率。
- •大量实验表明,LithoGRPO在成像保真度、可制造性和鲁棒性方面取得了最先进的性能,同时保持了高生成效率。
## 2 基础知识
### 2.1 逆光刻技术
如图2(https://arxiv.org/html/2606.00228#S1.F2)左侧所示,光刻工艺将掩模图案x通过光学系统投影到涂有光刻胶的晶圆上,在抗蚀剂表面形成空间像I,并在显影后在晶圆上形成抗蚀剂图像Z。
**光学成像与光刻胶建模。**通常不构建完整的物理模拟,而是采用紧凑的可微前向模型,通过光学成像和光刻胶过程将掩模图案x与印刷的抗蚀剂图像Z联系起来。图2(https://arxiv.org/html/2606.00228#S1.F2)所示的空间像I可用Hopkins衍射模型(Hopkins, 1953(https://arxiv.org/html/2606.00228#bib.bib49))描述:
I = h(x) = ∑_{k=1}^{K} μ_k ‖ h_k ⊗ x ‖^2, (1)
其中x表示掩模图案,h_k是第k个相干点扩散函数,μ_k是其对应的照明权重。运算符⊗表示卷积,‖·‖表示复数振幅的大小。直观上,等式(1)(https://arxiv.org/html/2606.00228#S2.E1)表示掩模图案被光学系统模糊,并在不同照明角度上积分,形成晶圆上的空间像I。
对负性光刻胶建模(曝光区域保留),空间像I通过阈值化转换为显影后的抗蚀剂图案:
Z = 𝟙(I > I_th), (2)
其中𝟙(·)表示指示函数,I_th是曝光阈值。为了对可微指标实现基于梯度的优化,这个不可微过程可以用近似替代:
Z = f(I) = 1 / (1 + exp[-α(I - I_th)]), (3)
其中α控制过渡陡峭度。合并等式(1)(https://arxiv.org/html/2606.00228#S2.E1)到(3)(https://arxiv.org/html/2606.00228#S2.E3)形成了一个可微的前向模型,将掩模图案x映射到其显影后的抗蚀剂图像Z,可简洁表示为Z = g(x) = f(h(x)),其中h(·)和f(·)分别表示光学成像和光刻胶。
**逆光刻与评估。**逆光刻技术旨在找到最优掩模x,使得抗蚀剂图像Z = g(x)与期望的目标版图T匹配。其性能主要通过四个代表性指标评估:L2、PVB、EPE和Shot,如图3(https://arxiv.org/html/2606.00228#S1.F3)所示。在可微目标中,L2损失是最广泛使用的衡量成像保真度的指标。它定义为关于掩模x和目标版图T的函数,反映模拟抗蚀剂图像Z = g(x)再现目标版图T的程度:
L2(x, T) = ‖g(x) - T‖_2^2。 (4)
为考虑焦点和剂量波动等工艺变化,工艺变化带(PVB)评估给定掩模x在不同工艺角下打印结果的稳定性。它测量最佳和最差工艺条件之间的强度范围:
PVB(x) = ‖g_max(x) - g_min(x)‖_2^2, (5)
其中g_max(x)和g_min(x)是在最佳和最差工艺条件下对同一x的模拟图像。PVB越大表示对工艺变化的敏感性越高,因此鲁棒性越低。
此外,两个不可微指标对于评估局部几何保真度和掩模可制造性至关重要。边缘放置误差(EPE)测量打印轮廓与目标边缘之间的局部偏差。通常通过统计目标边界上离散采样点处偏差超过指定容差(Max EPE)的站点数量来评估,EPE值越小表示图案保真度越高。曝光量(Shot)评估掩模可制造性。它是在电子束掩模写入时覆盖ILT图案所需的最小矩形曝光量数量,直接影响制造时间和成本。这些指标通常存在固有的权衡:追求更高的成像保真度(例如更低的L2/EPE)通常需要更复杂的掩模几何形状,这反过来会增加掩模写入的复杂度。相似文章
Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐
Flash-GRPO 通过等时间分组和时间梯度校正解决时间方差和梯度不一致问题,从而提升了视频扩散模型的训练效率,实现了最先进的对齐质量和显著的训练加速。
BiasGRPO:通过群体相对策略优化稳定高方差奖励环境中的偏见缓解
BiasGRPO 提出了一种利用群体相对策略优化(GRPO)的框架,通过对采样补全结果的奖励进行归一化,稳定 LLM 中社会偏见的缓解过程,在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型,可无缝集成到多目标 RLHF 流水线中。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
F-GRPO: 分解式组相对策略优化用于统一候选生成与排序
F-GRPO 提出了一种分解式组相对策略优化框架,将候选生成与排序统一在单个自回归LLM中,解决了信用分配问题,并在序列推荐和多跳问答基准上提升了顶级性能。
@SergioPaniego:连续批处理刚刚在TRL的GRPO中实现,在64次生成时,它比普通生成运行更快且使用更少的VRAM…
连续批处理已添加到TRL的GRPO中,提高了速度并减少了VRAM使用,无需vLLM。推文解释其工作原理及适用时机。