多适配器PPO:一种基于交叉注意力增强的波长选择框架用于LIBS定量分析

arXiv cs.LG 论文

摘要

本文介绍了多适配器PPO(Multi-Adapter PPO),一种结合交叉注意力机制的强化学习框架,用于LIBS定量分析中的波长选择,在钢铁和煤数据集上相比传统方法实现了28.4%的综合评分提升和45.2%的预测精度改进。

arXiv:2606.17476v1 公告类型:新 摘要:激光诱导击穿光谱(LIBS)定量分析在波长选择方面面临关键挑战,原因在于高维光谱数据以及预测精度与特征效率之间的基本权衡。本文提出了一种新颖的多适配器PPO框架,将波长选择转化为强化学习问题,利用交叉注意力机制和多个专门适配器来捕捉复杂的光谱关系。我们的方法在钢铁和煤数据集上,综合评分平均比传统的粒子群优化(PSO)高出28.4%,预测精度高出45.2%。所提出的方法在平衡预测精度与特征效率方面表现出优越性能,在LIBS定量分析中达到了最先进的结果,同时保持可解释性和计算效率。我们在此处发布了代码和数据集:https://github.com/Hflying/MAPPO
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:39

# 多适配器PPO:一种跨注意力增强的波长选择框架,用于LIBS定量分析
来源:https://arxiv.org/html/2606.17476

###### 摘要

激光诱导击穿光谱(LIBS)定量分析在波长选择方面面临关键挑战,这源于高维光谱数据以及预测精度与特征效率之间的基本权衡。本文提出了一种新颖的多适配器PPO框架,将波长选择转化为强化学习问题,利用跨注意力机制和多个专用适配器来捕捉复杂的光谱关系。在钢铁和煤炭数据集上,我们的方法在综合得分上平均优于传统粒子群优化(PSO)28.4%,在预测精度上平均优于45.2%。所提出的方法在平衡预测精度与特征效率方面表现出卓越性能,在保持可解释性和计算效率的同时,实现了LIBS定量分析的最新成果。我们在此处发布了代码和数据集:https://github.com/Hflying/MAPPO

## I 引言

激光诱导击穿光谱(LIBS)已成为一种元素检测与定量的多功能分析技术,应用范围涵盖环境监测、材料科学和工业质量控制。通过LIBS实现高精度定量测量主要面临两大关键挑战:光谱噪声[28 (https://arxiv.org/html/2606.17476#bib.bib1),7 (https://arxiv.org/html/2606.17476#bib.bib2),20 (https://arxiv.org/html/2606.17476#bib.bib3),3 (https://arxiv.org/html/2606.17476#bib.bib4),9 (https://arxiv.org/html/2606.17476#bib.bib5),8 (https://arxiv.org/html/2606.17476#bib.bib12),6 (https://arxiv.org/html/2606.17476#bib.bib13),19 (https://arxiv.org/html/2606.17476#bib.bib14)]和数据稀缺[17 (https://arxiv.org/html/2606.17476#bib.bib20),4 (https://arxiv.org/html/2606.17476#bib.bib21),24 (https://arxiv.org/html/2606.17476#bib.bib22)]。在LIBS中,每种元素在特定波长处发射特征光谱峰,这既是定性识别也是定量测量的基础。然而,从这些光谱特征与真实元素浓度之间提取可靠关系,会受到基体效应、峰重叠和非线性相关等因素的干扰——传统数据处理流程往往难以全面应对这些挑战。降维方法,如主成分分析(PCA)[22 (https://arxiv.org/html/2606.17476#bib.bib15),29 (https://arxiv.org/html/2606.17476#bib.bib16),15 (https://arxiv.org/html/2606.17476#bib.bib17),14 (https://arxiv.org/html/2606.17476#bib.bib6)],虽然能有效简化数据复杂性,但通常会通过变换原始光谱空间而掩盖单个特征峰与其对应元素浓度之间的直接关联。光谱特征的物理驱动解释[1 (https://arxiv.org/html/2606.17476#bib.bib23),23 (https://arxiv.org/html/2606.17476#bib.bib19)]及其与元素组成的关系,不仅提供了理论验证,还为提高定量模型的鲁棒性和可解释性提供了见解。相反,传统的波长选择算法,尽管专注于保留信息量丰富的波长,但由于无法适应光谱数据动态且复杂的特性,在LIBS中常常表现不佳,这从刚性阈值化或线性特征加权方法的局限性中可见一斑。

因此,LIBS定量分析中的一个关键挑战在于波长选择,因为原始光谱数据本质上是高维的,包含冗余信息、背景噪声和光谱干扰,从而阻碍了准确的浓度预测。目前已提出多种变量选择方法,包括互信息[21 (https://arxiv.org/html/2606.17476#bib.bib24)]、卡方检验和信息增益(IG)(这些方法基于统计指标评估特征相关性,计算效率高),以及粒子群优化[27 (https://arxiv.org/html/2606.17476#bib.bib25)]、随机化检验[26 (https://arxiv.org/html/2606.17476#bib.bib26)]和遗传算法[16 (https://arxiv.org/html/2606.17476#bib.bib27)](这些方法考虑了特征子集与学习模型之间的关系)。粒子群优化(PSO)[5 (https://arxiv.org/html/2606.17476#bib.bib18),23 (https://arxiv.org/html/2606.17476#bib.bib19)]是一种广泛采用的群智能算法,已被大量用于LIBS中的波长选择,利用集体搜索动态来识别最优特征子集。然而,传统的PSO及其混合变体[30 (https://arxiv.org/html/2606.17476#bib.bib28),18 (https://arxiv.org/html/2606.17476#bib.bib29),13 (https://arxiv.org/html/2606.17476#bib.bib9),10 (https://arxiv.org/html/2606.17476#bib.bib7),12 (https://arxiv.org/html/2606.17476#bib.bib10),11 (https://arxiv.org/html/2606.17476#bib.bib11),25 (https://arxiv.org/html/2606.17476#bib.bib8)]存在局限性,例如在导航LIBS光谱的高维、噪声环境时容易陷入早熟收敛和次优精度,在这些环境中,细微但关键的峰(例如痕量元素的峰)容易被更强的信号或噪声所掩盖。

参见图注:图1:多适配器PPO架构概览。该框架由双编码器(特征和目标)组成,处理光谱数据和目标变量,随后通过多头跨注意力捕捉光谱-目标关系。四个专用适配器学习不同的特征-目标映射模式,并通过可学习的权重进行聚合。最终策略网络输出用于波长选择或停止的动作概率。如果我们深入探讨LIBS光谱分析中波长选择的本质,它本质上涉及顺序决策——每个波长的选择会影响后续选择——并且需要优化一个特定目标(例如,增强信号信息量同时减少噪声),这与强化学习的核心范式完美契合,其中智能体通过顺序决策来最大化累积奖励。类似的见解已在高光谱波段选择领域得到应用。例如,在[2 (https://arxiv.org/html/2606.17476#bib.bib30)]中,作者将高光谱波段选择任务转化为强化学习问题,提出了一种基于A2C的算法,并利用半监督EvaluateNet来评估所选波段的效率。该工作验证了在强化学习框架内构建光谱选择任务的可行性,为进一步的算法优化奠定了基础。然而,众所周知,与更先进的替代方案相比,A2C算法在通用性方面存在局限。相比之下,近端策略优化(PPO)在处理顺序决策和复杂优化任务方面具有明显优势。通过将演员-评论家框架与高效的裁剪策略更新相结合,PPO能够稳定且自适应地在LIBS光谱分析中优先选择信息量丰富的波长,同时抑制噪声和干扰。这不仅解决了波长选择的核心需求,还克服了A2C的通用性限制,使其更适合LIBS光谱分析中细微且多变的要求。他们将高光谱波段选择任务转化为强化学习问题,提出了一种基于A2C的算法,并使用半监督EvaluateNet来评估波段效率。

本研究通过首先确立近端策略优化(PPO)在顺序决策问题中相比传统粒子群优化(PSO)的理论优势,来解决这些局限性。虽然PSO存在早熟收敛并且在高维空间中缺乏学习机制,但PPO通过其演员-评论家架构和策略梯度优化自然地处理顺序波长选择。在此基础之上,我们提出并比较了多种增强型PPO变体用于波长选择。我们的关键创新在于开发了一个综合框架,该框架评估不同的PPO架构及其在平衡预测精度与特征效率方面的有效性。所提出的方法通过一个LIBS数据集进行验证,该数据集来自一个为煤和钢质量分析优化的定制系统,具有高分辨率光谱数据(180–800 nm波长范围,0.1 nm分辨率),采集自脉冲激光诱导等离子体发射,测量值跨越多种元素浓度以反映真实世界的变异性。

总体而言,我们的贡献总结如下:

- •本工作是首次将波长选择建模为强化学习过程,并在理论上证明在此背景下PPO算法优于PSO算法。
- •本工作全面比较了多种PPO深度网络变体,所有这些变体均优于PSO算法,其中最佳算法(多适配器PPO算法)在保持相同特征数量的同时,实现了高达45.2%的精度提升。
- •本工作开发并全面评估了多种PPO深度评估网络变体,分析了每种算法的场景适用性。
- •另一个重要贡献是开源了带有真实标签的煤和钢LIBS数据集,该数据集来自脉冲激光诱导等离子体发射。

## II 问题表述

### II-A 问题定义

给定一个LIBS数据集 D = { (x_i, y_i) }_{i=1}^n,其中 x_i ∈ ℝ^d 表示在 d 个波长处的光谱强度,y_i ∈ ℝ 表示元素浓度,波长选择问题旨在找到一个子集 S ⊆ {1, 2, ..., d},使得以下目标函数最大化:

J(S) = P(S) - α · |S|/d   (1)

其中:
- • P(S) 衡量使用 S 中波长的预测精度(例如,负RMSE或R²分数)
- • |S|/d 是特征选择比例,用于惩罚过多的波长选择
- • α 是一个权衡参数,控制性能与稀疏性之间的平衡

这个简单的目标函数为学习算法提供了清晰的优化目标,平衡了预测精度与特征效率。为了进行全面的性能评估,我们还计算帕累托得分 J_Pareto(S) = ComprehensiveScore(S) · EfficiencyScore(S),该得分综合了多个性能指标和特征质量度量。

### II-B PPO算法框架

近端策略优化(PPO)代表了最先进的强化学习算法,在顺序决策任务中表现出色。与容易陷入早熟收敛、缺乏学习机制的传统优化方法不同,PPO采用演员-评论家架构,自然地处理波长选择的顺序特性。

演员网络(策略):策略网络 π_θ(a_t | s_t) 输出选择波长或停止的动作概率,由 θ 参数化。它通过策略梯度更新学习将状态映射到最优动作分布。

评论家网络(价值):价值网络 V_φ(s_t) 估计从状态 s_t 开始的期望回报,为策略更新提供基线值以降低方差,从而实现更稳定的学习。

### II-C 增强型PPO变体

在标准PPO框架的基础之上,我们通过修改演员网络(策略)来应对波长选择中的特定挑战,开发了多种增强型变体,同时保持标准的评论家网络(价值)架构。这些变体可分为三大类:

基于互信息的技巧:引入互信息理论,引导特征选择偏向信息量更丰富的波长。MI正则化PPO修改策略网络,引入所选波长与目标浓度之间的互信息约束,引导智能体优先选择高信息量的波长,同时通过增强的策略梯度惩罚冗余选择。计算所选波长 W 与目标变量 Y 之间的互信息项 I(W;Y),并将其作为正则化项添加到策略损失中,鼓励智能体选择能最大化信息增益的波长。改进的MI-PPO在此基础上扩展,加入了显式的目标特征数量约束,通过受约束的策略优化在信息增益与稀疏性需求之间取得平衡,从而实现对最终特征子集大小更精确的控制。

早停技巧:运用最优停止理论来确定波长选择最合适的终止点。最优停止PPO增强了策略网络,加入了学习到的停止准则,该准则平衡了探索(选择更多波长以可能提高精度)与利用(提前停止以保持特征效率)。智能体学会预测选择额外波长的边际收益,并决定何时进一步选择会导致收益递减。这是通过引入耐心机制并跟踪验证性能来实现的,其中策略网络学习在从额外波长期望的改进低于学习阈值时输出停止动作。

高级策略网络技巧:将标准MLP策略网络替换或增强为更复杂的架构,以捕捉复杂的光谱关系。多适配器PPO是我们性能最好的变体,它将标准策略网络替换为跨注意力机制和多个专用适配器,以捕捉多样化的光谱-目标关系,并通过增强的策略表示来提高特征选择精度。Transformer-PPO将传统的MLP策略替换为Transformer架构,利用自注意力机制更好地建模光谱数据中的长距离依赖关系,并捕捉波长之间的全局关系。CLIP-PPO在策略网络中采用受CLIP启发的双编码器架构,包含独立的特征编码器和目标编码器,通过对比表示学习更好地理解光谱特征关系。ICL-PPO在策略网络中实现了上下文学习能力,使智能体能够根据训练过程中观察到的类似光谱模式的上下文信息,调整其特征选择策略。

### II-D MDP形式化

我们将波长选择问题重新表述为马尔可夫决策过程(MDP),以利用PPO的顺序决策能力:

状态空间:在时间步 t 时,状态 s_t 定义为:

s_t = [ m_t, f_t, c_t ]   (2)

其中 m_t ∈ {0,1}^d 指示已选择的波长,f_t ∈ ℝ^d 表示当前特征重要性得分,c_t ∈ ℝ^k 编码关于光谱特征上下

相似文章

基于注意力机制的Token加权直接偏好优化

arXiv cs.CL

提出AttentionPO,一种基于Token加权的直接偏好优化方法,它利用LLM自身的注意力来估计Token权重,在AlpacaEval、MT-Bench和ArenaHard上提升对齐性能,且无需单独奖励模型。

Spectral Souping:在线偏好对齐的统一框架

arXiv cs.LG

本文介绍了Spectral Souping,这是一种通过发现通用谱表示来高效对齐LLM与个体用户偏好的框架,该表示能在推理时合并专门策略,无需昂贵的重新训练。

APPO: 智能体过程策略优化

Hugging Face Daily Papers

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。