学习触发:大型强子对撞机上的强化学习

arXiv cs.LG 论文

摘要

本文提出了一种强化学习方法,用于动态调整大型强子对撞机的触发阈值,在维持本底率的同时提高信号效率,并首次在真实对撞数据上进行了演示。

arXiv:2606.23993v1 公告类型: 新 摘要: 大型强子对撞机等高通量科学设施依赖于在带宽、延迟和存储的严格约束下进行实时事件过滤(\textit{触发})。实际上,触发菜单大多是静态且手工调整的,随着检测器条件、堆积和本底成分随时间漂移,可能会变得次优。我们将在线阈值调整视为一个序列决策问题:一个强化学习智能体接收最近速率和信号敏感特征的流式摘要,并更新触发阈值,以在跟踪目标本底率的同时最大化信号效率,允许一定的容忍带。我们将组过滤策略优化(GFPO)应用于流式控制,并引入了两种变体(GFPO-F, GFPO-FR),在训练过程中强制实施本底率可行性。在一个模拟真实对撞机运行的基准测试中,我们研究了两个代表性触发:一个对堆积变化敏感的总横向能量($H_{T}$)触发,以及一个基于重建损失检测罕见或非标准信号的异常检测(AD)触发。在蒙特卡洛流上,我们的智能体将容忍时间间隔的比例提高了48\%($H_T$)和28\%(AD),在这些容忍间隔内的信号效率累计增益高达2\%。从模拟迁移到\emph{真实}对撞数据(CMS Run 283408),相同的智能体无需微调,与基线相比,容忍时间间隔改进达到56\%($H_T$)和28\%(AD),并且在两个触发上都有进一步的信号效率增益。据我们所知,这是\emph{首次}在真实大型强子对撞机对撞数据上展示基于强化学习的触发控制。代码可在 https://github.com/Zixind/GFPO\_LHC 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:49

# 学会触发:大型强子对撞机中的强化学习  
来源:https://arxiv.org/html/2606.23993  

Zixin Ding¹, Shaghayegh Emami², Giovanna Salvi², Cecilia Tosciri¹, Abhijith Gandrakota³, Jennifer Ngadiuba³, Nhan Tran³, Christian Herwig², David W. Miller¹, Yuxin Chen¹  

1 芝加哥大学  
2 密歇根大学安娜堡分校  
3 费米国家加速器实验室  

###### 摘要  

如大型强子对撞机这类高通量科学设施,依赖于在带宽、延迟和存储的严格约束下进行实时事件过滤(触发)。在实践中,触发菜单大多是静态且手动调整的,随着探测器条件、堆积事件和背景成分随时间漂移,可能变得次优。本文将在线阈值调整建模为一个序列决策问题:强化学习智能体摄取近期触发率和信号敏感特征的流式摘要,在跟踪目标背景率并使其保持在容差带内的同时,更新触发器阈值以最大化信号效率。我们将组过滤策略优化(GFPO)适配到流式控制,并引入两种变体(GFPO-F, GFPO-FR),在训练期间强制满足背景率可行性。在一个模拟真实对撞机运行的基准测试上,我们研究了两种代表性触发器:对堆积变化敏感的总横向能量(HT)触发器,以及基于重建损失针对罕见或非标准信号进行异常检测(AD)的触发器。在蒙特卡洛数据流上,我们的智能体将容差内时间间隔的比例提高了48%(HT)和28%(AD),在这些容差内间隔上信号效率累计提升高达2%。从模拟迁移到真实碰撞数据(CMS Run 283408),同一智能体无需微调,在基线基础上实现了56%(HT)和28%(AD)的容差内提升,并在两个触发器上进一步获得信号效率增益。据我们所知,这是在真实大型强子对撞机碰撞数据上基于强化学习的触发控制的**首次**演示。代码可在 https://github.com/Zixind/GFPO_LHC 获取。  

## 1 引言  

高通量发现科学依赖于在严格的带宽和延迟约束下进行实时事件选择。在大型强子对撞机(LHC)中,触发菜单大多是静态且手动调整的,需要详细的模拟和反复的专家重新优化以适应堆积和背景成分的漂移。这种工作流程成本高昂,并且在分布偏移下可能很快变得校准不当,从而降低探测罕见现象的效率。直到最近,动态带宽分配和低延迟菜单适应性调整方面的努力才开始探索在线重新调整阈值的习得策略。然而,在更常见的场景——即固定阈值菜单必须在变化条件下在线重新调整——中,这种持续适应是否甚至**可行**,在很大程度上仍未得到探索。我们研究一种**自动驾驶触发器**的设计:一种自主的、感知硬件的过滤系统,能在线调整其选择阈值,以在响应变化的物理条件时维持稳定的背景率并提高信号效率。  

现有工作引入了一个自主触发控制框架,将PID基线扩展为一个联合优化速率稳定性、信号效率和计算成本的代价函数公式。这种对离散阈值候选者的穷举搜索对于小菜单有效,但随着动作空间增长在计算上变得不可行,而且两种策略都不依赖于诸如堆积事件等流式上下文。强化学习(RL)提供了一种有原则的替代方案:一个基于丰富特征状态的习得策略可以预测分布偏移,扩展到大的动作空间,并驾驭代价函数框架形式化但无法有效求解的多目标权衡。  

因此,我们将自适应阈值调整建模为一个序列决策问题,并训练一个RL策略,该策略观察紧凑的流式摘要(例如,最近的速率和分布统计量)并更新阈值,以在满足严格的背景率约束的同时最大化长期物理效用。通过直接从时变数据中学习,该策略能够捕获非线性和延迟效应,更有效地分配速率预算,减少手动重新调整,并在非平稳环境中提高性能。  

我们首先研究两类代表性触发器,这些触发器在模拟样本上训练,并在CMS实验记录的真实碰撞数据上部署。具体而言,我们提出以下问题:*基于RL的触发控制器能否在真实碰撞数据上提高信号效率,同时保持与基于控制的基线相当(或更好)的背景率稳定性?*如果是,*在物理学家生成的模拟上训练并部署到真实碰撞数据上是否更可取,还是依赖测试时训练?*  

##### 贡献。我们具体做出四项贡献。  

(1) 我们引入了一个统一的评估框架,其度量标准量化了可行性和性能。可行性通过带内分数测量,定义为触发器率保持目标带宽容差内的事件比例,而性能通过信号效率评估。我们将在线触发器阈值优化形式化为一个具有流式观测的强化学习问题,并证明即使是一个简单的深度Q网络(DQN)控制器也能实时有效地调整触发器阈值(第3.1节)。  

(2) 我们引入了一个基于序列的观测模型,将状态表示为长度为K的事件序列,并增强以物理学信息特征(参见附录C中的伪代码)。与PID控制不同,后者对合并了不同故障模式(全局光度偏移与阈值附近的局部分数分布变化)的标量误差做出反应,我们的表示保留了分布上下文,使策略能够诊断速率为何漂移。一个循环编码器将K事件窗口压缩为一个固定大小的状态向量(附录E.3)。  

(3) 我们将组过滤策略优化(GFPO,一种组相对策略优化GRPO的变体)适配到流式触发场景,并提出了两种新变体GFPO-F和GFPO-FR,它们通过可行性(可接受的背景率)和信号效率过滤展开轨迹(采样的候选动作及其评估结果)。两种变体在蒙特卡洛(MC)模拟事件和真实CMS碰撞数据(Run 283408)上均提高了稳定性而不降低效率(反之亦然),从模拟迁移到CMS数据时性能损失可忽略(附录F.3),消除了部署时基于梯度的微调需求,并且对异常检测分数尺度的较大变化保持鲁棒(附录G)。  

(4) 我们的框架不止局限于LHC。我们将该框架应用于在线异常检测基准测试,并表明将基于序列的神经状态表示与GFPO-F和GFPO-FR相结合,在具有分布偏移的流式数据下带来一致的改进,表明我们的方法能够很好地泛化到粒子物理领域之外(第5节)。  

基于Emami等人提出的自动驾驶触发框架,我们展示了使用真实CMS碰撞数据(Runs 283408和283876)的**首个**端到端RL训练策略:该策略直接从流式经验中学习其阈值更新规则,而非最小化全局代价函数。  

## 2 相关工作  

##### 科学决策中的强化学习。  
RL已被应用于自动驾驶实验室、加速器调谐和托卡马克控制。LHC触发控制的不同之处在于其明确地**受速率约束**:控制器必须在非平稳堆积和探测器漂移下,在最大化信号效率的同时将背景接收率保持在严格容差内。  

##### 漂移下的异常检测。  
主动异常检测通常在标签预算下学习**查询**策略。而我们则调整基于自编码器的分数的**工作阈值**以满足漂移下的速率约束。最接近的公式是ADT,它固定一个预训练的自编码器并选择二元决策阈值;我们将触发器阈值视为实时反馈回路中的控制变量。DSPOT通过极值理论设置自适应阈值,其假阳性水平q映射到我们的目标率rB*;我们将其作为基线,但它没有优化信号效率的机制(附录E.1.2)。  

##### 选择性更新。  
拒绝式过滤稳定了RL训练,尤其对于LLM而言。最直接地,GFPO采样更大的候选组,并根据响应长度和标记效率进行过滤以控制冗长性。我们将此框架适配到流式触发控制,其中过滤必须在分布偏移下强制执行速率可行性,并开发了两种变体:GFPO-F保留具有最小速率偏差的前K个候选;GFPO-FR首先在扩展的容差带内选择可行候选,然后按信号效用排序。附录A提供了更详细的讨论。  

## 3 自适应阈值调整中的RL形式化  

我们分别控制两个触发路径的单个标量阈值ct:一个HT触发器,选择具有高总强子活度(HT = ∑_jets pT^jet)的事件;以及一个异常检测(AD)触发器,通过自编码器重建损失对事件进行评分。在每一步,智能体选择ct+1,使背景接收率接近目标rB*,同时在保留信号样本上最大化信号效率。相同的公式适用于两个触发器。  

我们将自适应阈值调整建模为一个马尔可夫决策过程(MDP)(S, A, T, R, γ),其中转移T是环境动态(动作更新阈值,下一个K事件从数据流到达,其分布随束流条件漂移,因此智能体不假设可访问T),γ∈[0,1)是折扣因子。我们定义状态、动作和奖励如下。  

- **状态**。st = (ht, ct),其中ht ∈ R^d 是对最近K个事件的固定大小摘要(在我们的LHC设置中d=19;它是近期K个事件的物理特征摘要,即触发分数和ct = (ct, r̂t, Δct−1) 包含当前阈值、观测到的速率和上一次阈值变化。  

- **动作**。at ∈ A 是一个离散阈值增量。阈值更新为 ct+1 = ct + at,并应用于下一批事件。  

- **奖励**。Rt结合了三项: (a) 保持背景率接近目标率并在容差内;(b) 针对两个代表性信号(t t̄ 和 h→4b)最大化信号效率;(c) 鼓励动作更新的稳定性,避免抖动。  

我们用三种结构递增的策略实例化该MDP:DQN(第3.1节)、适配到流式控制的GRPO(第3.2节),以及经过可行性过滤的GFPO(第4节)。  

(图1:HT触发器的奖励分量灵敏度分析,显示GFPO-F和GFPO-FR收敛到右上角更紧的簇,说明对λ1,2的选择具有强鲁棒性。)  

### 3.1 预热:针对单个触发器的DQN  

表1:MC上的单触发器控制。每个RL策略在MC数据块的前80%上训练,然后冻结并在保留的后20%上评估,所有报告结果均在此保留集上获得。背景率以百分比表示,并给出目标rB*和容差τ。加粗和下划线分别表示每列最佳和第二佳,括号内为标准差。我们对每种方法重复3次,0标准差表示≈0标准差。我们的方法在所有指标的两个触发器上均排名前二。  

表2:CMS数据上的单触发器控制(零样本迁移)。表1中经过MC训练的策略被冻结并部署到真实碰撞数据上,无需微调。GFPO-FR(我们的方法)在两个触发器上均获得最高信号效率,并在AD上获得最高带内率;GFPO-F(我们的方法)在两个触发器上均获得最低MAE。参见附录F.4。  

(继续翻译剩余部分...)  

(注意:由于原文较长,这里只翻译了前几节。后续部分将根据要求继续,但我们需要确保回复只包含翻译后的markdown,不添加额外解释。当前回复已包含摘要、引言、相关工作、3节前部分和表格注释。需要继续翻译完整内容吗?但用户没有指定翻译到何处,我应假设翻译整个文档?但用户消息只提供了部分内容。根据指令,我应该只翻译给定的内容,即从开头到“Table 2: ... See Appendix F.4”。但用户消息中包含了图1和表1、表2的引用,但未给出具体的表格内容。实际上,在用户消息中,图1和表1、表2是以markdown表格形式嵌入的,但消息中并没有完整显示表格数据,只显示了表格描述。所以我应该只翻译可见的文本。然而,用户消息末尾有“See AppendixF.4 (https://arxiv.org/html/2606.23993#A6.SS3)”,这是链接。我需要保持原样。  

既然用户要求“Translate the given markdown article content from English to Simplified Chinese”,且内容在消息中,我应忠实翻译提供的文本。注意,消息中包含了引用(如“[30]”),这些引用在翻译中应该保留。还有网址等。  

我已完成翻译到表2描述。用户消息在表2描述后结束,没有更多内容。所以我的回复应该就是以上翻译内容。注意,我需要在回复中输出翻译后的markdown,不添加额外解释。  

但需要检查:用户消息中有一句“Refer to caption (a) HT trigger ... Figure 1: ...”,这些是图标题的一部分,我应翻译。还有“Table 1: ...”,我已经翻译了描述,但表格本身未给出数据,只给出了文字描述。因此我的翻译只保留文字描述。  

最终回复应该只包含翻译后的文本。按照要求,不添加其他东西。所以,我将输出从“# Learning to Trigger: ...”开始到“See AppendixF.4”的翻译内容。但为了完整性,我应包含整个消息。用户消息从“# Learning to Trigger: ...”到“See AppendixF\.4 (https://arxiv.org/html/2606.23993#A6.SS3)”。所以我的翻译应涵盖这些。注意,在消息开头有“Source: https://arxiv.org/html/2606.23993”等,这些要保持。还有作者列表等。  

我决定完整翻译。# 学会触发:大型强子对撞机中的强化学习  
来源:https://arxiv.org/html/2606.23993  

Zixin Ding¹, Shaghayegh Emami², Giovanna Salvi², Cecilia Tosciri¹, Abhijith Gandrakota³, Jennifer Ngadiuba³, Nhan Tran³, Christian Herwig², David W. Miller¹, Yuxin Chen¹  

1 芝加哥大学  
2 密歇根大学安娜堡分校  
3 费米国家加速器实验室  

###### 摘要  

如大型强子对撞机这类高通量科学设施,依赖于在带宽、延迟和存储的严格约束下进行实时事件过滤(触发)。在实践中,触发菜单大多是静态且手动调整的,随着探测器条件、堆积事件和背景成分随时间漂移,可能变得次优。本文将在线阈值调整建模为一个序列决策问题:强化学习智能体摄取近期触发率和信号敏感特征的流式摘要,在跟踪目标背景率并使其保持在容差带内的同时,更新触发器阈值以最大化信号效率。我们将组过滤策略优化(GFPO)适配到流式控制,并引入两种变体(GFPO-F, GFPO-FR),在训练期间强制满足背景率可行性。在一个模拟真实对撞机运行的基准测试上,我们研究了两种代表性触发器:对堆积变化敏感的总横向能量(HTH\_\{T\})触发器,以及基于重建损失针对罕见或非标准信号进行异常检测(AD)的触发器。在蒙特卡洛数据流上,我们的智能体将容差内时间间隔的比例提高了48%(HTH\_\{T\})和28%(AD),在这些容差内间隔上信号效率累计提升高达2%。从模拟迁移到真实碰撞数据(CMS Run 283408),同一智能体无需微调,在基线基础上实现了56%(HTH\_\{T\})和28%(AD)的容差内提升,并在两个触发器上进一步获得信号效率增益。据我们所知,这是在真实大型强子对撞机碰撞数据上基于强化学习的触发控制的**首次**演示。代码可在 https://github.com/Zixind/GFPO_LHC 获取。  

## 1 引言  

高通量发现科学依赖于在严格的带宽和延迟约束下进行实时事件选择[7, 53, 24, 4]。在大型强子对撞机(LHC)中,触发菜单大多是静态且手动调整的,需要详细的模拟和反复的专家重新优化以适应堆积和背景成分的漂移[4, 30]。这种工作流程成本高昂,并且在分布偏移下可能很快变得校准不当,从而降低探测罕见现象的效率。直到最近,动态带宽分配[32]和低延迟菜单适应性调整[53]方面的努力才开始探索在线重新调整阈值的习得策略。然而,在更常见的场景——即固定阈值菜单必须在变化条件下在线重新调整——中,这种持续适应是否甚至**可行**,在很大程度上仍未得到探索。  

我们研究一种**自动驾驶触发器**的设计:一种自主的、感知硬件的过滤系统,能在线调整其选择阈值,以在响应变化的物理条件时维持稳定的背景率并提高信号效率。  

现有工作[30]引入了一个自主触发控制框架,将PID基线扩展为一个联合优化速率稳定性、信号效率和计算成本的代价函数公式。这种对离散阈值候选者的穷举搜索对于小菜单有效,但随着动作空间增长在计算上变得不可行,而且两种策略都不依赖于诸如堆积事件等流式上下文[23]。强化学习(RL)[70, 39, 38]提供了一种有原则的替代方案:一个基于丰富特征状态的习得策略可以预测分布偏移,扩展到大的动作空间,并驾驭代价函数框架形式化但无法高效求解的多目标权衡。  

因此,我们将自适应阈值调整建模为一个序列决策问题[54, 59, 76],并训练一个RL策略[70],该策略观察紧凑的流式摘要(例如,最近的速率和分布统计量)并更新阈值,以在满足严格的背景率约束[7, 17, 15]的同时最大化长期物理效用。通过直接从时变数据中学习,该策略能够捕获非线性和延迟效应,更有效地分配速率预算,减少手动重新调整,并在非平稳环境中提高性能。  

我们首先研究两类代表性触发器,这些触发器在模拟样本上训练,并在CMS实验[20]记录的真实碰撞数据上部署。具体而言,我们提出以下问题:*基于RL的触发控制器能否在真实碰撞数据上提高信号效率,同时保持与基于控制的基线相当(或更好)的背景率稳定性?*如果是,*在物理学家生成的模拟上训练并部署到真实碰撞数据上是否更可取,还是依赖测试时训练?*  

##### 贡献。我们具体做出四项贡献。  

(1) 我们引入了一个统一的评估框架,其度量标准量化了可行性和性能。可行性通过带内分数测量,定义为触发器率保持目标带宽容差内的事件比例,而性能通过信号效率评估。我们将在线触发器阈值优化形式化为一个具有流式观测的强化学习问题,并证明即使是一个简单的深度Q网络(DQN)控制器也能实时有效地调整触发器阈值(第3.1节)。  

(2) 我们引入了一个基于序列的观测模型,将状态表示为长度为K的事件序列,并增强以物理学信息特征(参见附录C中的伪代码)。与PID控制[30]不同,后者对合并了不同故障模式(全局光度偏移与阈值附近的局部分数分布变化)的标量误差做出反应,我们的表示保留了分布上下文,使策略能够诊断速率为何漂移[38]。一个循环编码器将K事件窗口压缩为一个固定大小的状态向量(附录E.3)。  

(3) 我们将组过滤策略优化(GFPO)[66](一种组相对策略优化GRPO[65]的变体)适配到流式触发场景,并提出了两种新变体GFPO-F和GFPO-FR,它们通过可行性(可接受的背景率)和信号效率过滤展开轨迹(采样的候选动作及其评估结果)。两种变体在蒙特卡洛(MC)模拟事件和真实CMS碰撞数据(Run 283408)上均提高了稳定性而不降低效率(反之亦然),从模拟迁移到CMS数据时性能损失可忽略(附录F.3),消除了部署时基于梯度的微调需求,并且对异常检测分数尺度的较大变化保持鲁棒(附录G)。  

(4) 我们的框架不止局限于LHC。我们将该框架应用于在线异常检测基准测试,并表明将基于序列的神经状态表示与GFPO-F和GFPO-FR相结合,在具有分布偏移的流式数据下带来一致的改进,表明我们的方法能够很好地泛化到粒子物理领域之外(第5节)。  

基于Emami等人[30]提出的自动驾驶触发框架,我们展示了使用真实CMS碰撞数据(Runs 283408和283876)的**首个**端到端RL训练策略:该策略直接从流式经验中学习其阈值更新规则,而非最小化全局代价函数。  

## 2 相关工作  

##### 科学决策中的强化学习。  
RL已被应用于自动驾驶实验室[74]、加速器调谐[43]和托卡马克控制[28]。LHC触发控制的不同之处在于其明确地**受速率约束**:控制器必须在非平稳堆积和探测器漂移下,在最大化信号效率的同时将背景接收率保持在严格容差内。  

##### 漂移下的异常检测。  
主动异常检测通常在标签预算下学习**查询**策略[80]。而我们则调整基于自编码器的分数的**工作阈值**以满足漂移下的速率约束。最接近的公式是ADT[76],它固定一个预训练的自编码器并选择二元决策阈值;我们将触发器阈值视为实时反馈回路中的控制变量。DSPOT[67]通过极值理论设置自适应阈值,其假阳性水平q映射到我们的目标率rB*;我们将其作为基线,但它没有优化信号效率的机制(附录E.1.2)。  

##### 选择性更新。  
拒绝式过滤稳定了RL训练,尤其对于LLM而言[78, 79, 66]。最直接地,GFPO[66]采样更大的候选组,并根据响应长度和标记效率进行过滤以控制冗长性。我们将此框架适配到流式触发控制,其中过滤必须在分布偏移下强制执行速率可行性,并开发了两种变体:GFPO-F保留具有最小速率偏差的前K个候选;GFPO-FR首先在扩展的容差带内选择可行候选,然后按信号效用排序。附录A提供了更详细的讨论。  

## 3 自适应阈值调整中的RL形式化  

我们分别控制两个触发路径的单个标量阈值c\_\{t\}:一个HTH\_\{T\}触发器,选择具有高总强子活度(HT = ∑\_\{jets\} p\_\{T\}^\{jet\})的事件;以及一个异常检测(AD)触发器,通过自编码器重建损失[35]对事件进行评分。在每一步,智能体选择c\_\{t+1\},使背景接收率¹接近目标r\_\{B\}^\{*\},同时在保留信号样本上最大化信号效率。相同的公式适用于两个触发器。  

我们将自适应阈值调整建模为一个马尔可夫决策过程(MDP)(S, A, T, R, γ)[40],其中转移T是环境动态(动作更新阈值,下一个K事件从数据流到达,其分布随束流条件漂移,因此智能体不假设可访问T),γ∈[0,1)是折扣因子。我们定义状态、动作和奖励如下。  

- **状态**。st = (ht, ct),其中ht ∈ R^d 是对最近K个事件的固定大小摘要(在我们的LHC设置中d=19;它是近期K个事件的物理特征摘要,即触发分数和ct = (ct, r̂t, Δc\_\{t-1\}) 包含当前阈值、观测到的速率和上一次阈值变化。  

- **动作**。at ∈ A 是一个离散阈值增量。阈值更新为 c\_\{t+1\} = c\_\{t\} + at,并应用于下一批事件。  

- **奖励**。Rt结合了三项: (a) 保持背景率接近目标率并在容差内;(b) 针对两个代表性信号(t t̄ 和 h→4b)[30]最大化信号效率;(c) 鼓励动作更新的稳定性,避免抖动[49, 4](公式2)。  

我们用三种结构递增的策略实例化该MDP:DQN(第3.1节)、适配到流式控制的GRPO(第3.2节),以及经过可行性过滤的GFPO(第4节)。  

(图1:HTH\_\{T\}触发器(t t̄ 和 h→4b)的奖励分量灵敏度分析。每个点代表公式2中的(λ1, λ2)配置,凹壳连接每种方法的上包络。x轴测量背景率落在容差带内的数据块比例,y轴度量总体信号效率。我们的方法(GFPO-F和GFPO-FR)收敛到右上角更紧的簇,同时实现接近完美的带内率和最高的信号效率,展现出对λ1,2选择的强鲁棒性。)  

### 3.1 预热:针对单个触发器的DQN  

表1:MC上的单触发器控制。每个RL策略在MC数据块的前80%上训练,然后冻结并在保留的后20%上评估,所有报告结果均在此保留集上获得。背景率以百分比表示,并给出目标rB*和容差τ。加粗和下划线分别表示每列最佳和第二佳,括号内为标准差。我们对每种方法重复3次,0标准差表示≈0标准差。我们的方法在所有指标的两个触发器上均排名前二。  

表2:CMS数据上的单触发器控制(零样本迁移)。表1中经过MC训练的策略被冻结并部署到真实碰撞数据上,无需微调。GFPO-FR(我们的方法)在两个触发器上均获得最高信号效率,并在AD上获得最高带内率;GFPO-F(我们的方法)在两个触发器上均获得最低MAE。参见附录F.4。

相似文章

基于标准的强化学习中奖励黑客行为的复现、分析与检测

Hugging Face Daily Papers

本文介绍了CHERRL,一个用于研究基于标准的强化学习中奖励黑客行为的可控环境。在该环境中,可以注入LLM作为评判者的偏见,以复现和分析黑客行为。作者还探索了一种基于智能体的系统,用于从训练日志中自动检测奖励黑客行为的开始。

借助大语言模型发现强化学习接口

Hugging Face Daily Papers

本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。

改进前沿大语言模型中的指令层级

OpenAI Blog

OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。