基于嵌套帕累托集学习的多样性驱动离线多目标优化
摘要
本文提出DOMOO,一种多样性驱动的离线多目标优化方法,通过累积风险控制和嵌套帕累托集学习来解决分布外问题,在基准测试中实现了优异的收敛性和多样性。
arXiv:2606.15115v1 公告类型:新论文
摘要:多目标优化(MOO)已成为解决涉及多个目标的复杂优化问题的强大方法。在许多实际场景中,函数评估不可用或过于昂贵,因此需要仅基于固定离线数据集进行优化。在这种称为离线MOO的设置中,目标是在无法访问真实目标函数的情况下找到帕累托集。该设置面临分布外(OOD)问题,即代理模型对于未见过的设计不准确。由于OOD问题,代理误差可能导致优化器选择不在真实帕累托前沿上且偏向其极端的解。为解决这一问题,本文提出多样性驱动的离线多目标优化(DOMOO),旨在找到多样且高质量的解集。首先,DOMOO集成了一个累积风险控制模块,用于估计候选解的潜在风险,并缓解训练数据与生成解之间的OOD问题。此外,提出了一种嵌套帕累托集学习(PSL)策略,以联合学习偏好和PSL参数,然后进行优化,使其能够适应多样的帕累托前沿几何形状。为进一步提高解质量,我们设计了一种多样性驱动的选择策略,提取一组有代表性且分布良好的最终解。为了实现这种多样性驱动的选择策略,我们提出了$\text{IGD}_\text{offline}$,一种针对离线设置定制的指标,同时考虑多样性和收敛性,并避免超体积指标的偏差。在合成和真实世界基准上的大量实验表明,DOMOO在收敛性和多样性方面,在比较方法中实现了最佳平均排名。
查看缓存全文
缓存时间: 2026/06/16 11:37
# 多样性驱动的离线多目标优化:基于嵌套帕累托集学习
来源:https://arxiv.org/html/2606.15115
Yaolin Wen,Xiang Xia,Xin An,Hanyi Si,Xiang Shu,Yangde Fu,Liang Dou,Hong Qian
###### 摘要
多目标优化(MOO)已成为解决涉及多个目标的复杂优化问题的强有力方法。在许多实际场景中,函数评估不可用或成本过高,因此必须仅基于固定的离线数据集进行优化。在这种被称为离线MOO的设置中,目标是在无法访问真实目标函数的情况下找到帕累托集。这种设置面临分布外(OOD)问题,即代理模型对于未见过的设计不够准确。由于OOD问题,代理误差可能导致优化器选择不在真实帕累托前沿上且偏向其极值的解。为解决这一问题,本文提出多样性驱动的离线多目标优化(DOMOO),旨在发现一组多样且高质量的解。首先,DOMOO引入了一个累积风险控制模块,用于估计候选解的潜在风险,并缓解训练数据与生成解之间的OOD问题。此外,提出了一种嵌套帕累托集学习(PSL)策略,联合学习偏好和PSL参数并进行优化,使其能够适应多种帕累托前沿几何形状。为了进一步提高解的质量,我们设计了一种多样性驱动的选择策略,提取一组具有代表性且分布均匀的最终解。为实现这一多样性驱动选择策略,我们提出了\\(\\text{IGD}_{\\text{offline}}\\),一种适用于离线场景的定制化指标,它同时考虑了多样性和收敛性,并避免了超体积指标的偏差。在合成和实际基准上的大量实验表明,在收敛性和多样性方面,DOMOO在比较方法中实现了跨任务的最佳平均排名。
离线优化, 黑箱优化, 多目标优化, 帕累托集学习
## 1 引言
多目标优化(MOO)广泛应用于从神经架构搜索(Lu等人,2020 (https://arxiv.org/html/2606.15115#bib.bib68))到天线结构设计(Yu等人,2019 (https://arxiv.org/html/2606.15115#bib.bib70))的各个领域,从业者必须平衡相互冲突的目标,例如开发一种既高效又低毒的药物(Nicolaou和Brown,2013 (https://arxiv.org/html/2606.15115#bib.bib84))。MOO旨在发现完整的帕累托最优解集,其中任何目标的改进都必然导致其他目标变差(Lin等人,2022 (https://arxiv.org/html/2606.15115#bib.bib16))。许多现有方法依赖代理模型来近似真实目标。然而,为了保持代理的准确性,它们通常需要在训练期间使用真实目标主动查询新的函数评估(Li等人,2025 (https://arxiv.org/html/2606.15115#bib.bib71))。在许多实际应用中,例如蛋白质工程和分子设计(Xue等人,2024 (https://arxiv.org/html/2606.15115#bib.bib64)),评估真实目标函数可能成本过高或具有危险性(Yuan等人,2025 (https://arxiv.org/html/2606.15115#bib.bib13)),使得函数评估变得困难。幸运的是,这些领域通常提供历史数据(即离线数据集),包含解及其对应的真实目标函数值。这推动了离线MOO设置的发展,其目标是仅使用离线数据,在没有任何主动评估的情况下,推荐一组代表多个目标之间最佳折中的解。
解决离线MOO的常见方法是在离线数据集上训练代理模型(例如高斯过程或深度神经网络)。然后,优化算法(例如进化算法)在代理模型的指导下探索解空间,以识别预期表现良好的解(Xue等人,2024 (https://arxiv.org/html/2606.15115#bib.bib64);Yuan等人,2025 (https://arxiv.org/html/2606.15115#bib.bib13))。然而,训练的代理模型容易受到分布外(OOD)问题的影响,经常为远离训练分布的解产生不可靠的预测(Lu等人,2023 (https://arxiv.org/html/2606.15115#bib.bib43);Brookes等人,2019 (https://arxiv.org/html/2606.15115#bib.bib24);Chen等人,2023 (https://arxiv.org/html/2606.15115#bib.bib32);Yun等人,2024 (https://arxiv.org/html/2606.15115#bib.bib4))。如图1左侧所示,我们展示了一个离线单目标优化示例以便可视化。在此设置中,基于离线数据集训练的代理模型倾向于低估远离数据集的真实目标。因此,优化器会选择在代理看来有前途但在真实目标下由于OOD问题表现不佳的解。在多目标设置中,OOD问题可能导致代理低估少数解,使它们错误地支配许多其他解。这会导致严重的帕累托前沿不平衡(如图1右侧深蓝色解所示),大多数解被消除,多样性和收敛性急剧下降(Xue等人,2024 (https://arxiv.org/html/2606.15115#bib.bib64))。
查看图注
图1:动机说明。左图说明了离线单目标优化中的OOD问题,右图强调了OOD可能导致离线多目标优化中多样性和收敛性降低。
尽管离线MOO中的OOD问题具有重要意义,但尚未得到充分探索。虽然已有一些方法用于解决单目标离线设置中的OOD问题(Qi等人,2022 (https://arxiv.org/html/2606.15115#bib.bib17);Kumar和Levine,2020 (https://arxiv.org/html/2606.15115#bib.bib29);Trabucco等人,2021 (https://arxiv.org/html/2606.15115#bib.bib23)),例如通过在代理模型中引入保守性来故意降低可能被高估的OOD解的预测值(Yu等人,2021 (https://arxiv.org/html/2606.15115#bib.bib33)),但由于多目标之间帕累托支配的复杂结构,这些技术无法直接应用于MOO。因此,当它们被简单扩展到多目标情况时,往往在解中表现出较差的多样性。此外,现有的在线MOO方法,如多目标贝叶斯优化(Ozaki等人,2024 (https://arxiv.org/html/2606.15115#bib.bib73))和进化算法(Li等人,2015 (https://arxiv.org/html/2606.15115#bib.bib72)),在其原生设置中通常不受OOD问题影响,因为它们可以主动查询新数据。然而,当这些方法直接应用于无法获取额外数据的离线场景时,它们经常遭受严重的OOD诱导误差,导致优化性能下降。这突显了迫切需要明确解决离线MOO中OOD问题的原则性方法。
**贡献。** 为了解决离线MOO中的上述问题,本文提出了多样性驱动的离线多目标优化(DOMOO),这是一个嵌套帕累托集学习(NPSL)框架,旨在提高候选解的多样性和收敛性。我们的主要贡献是:
- **带风险控制的嵌套PSL。** 我们提出了一个NPSL框架,该框架同时学习偏好条件映射,并通过累积风险控制优化偏好向量。为了解决OOD不确定性,DOMOO在偏好更新机制中嵌入了风险抑制,确保了多样性与可靠性之间的稳健平衡。
- **基于 \\(\\text{IGD}_{\\text{offline}}\\) 的多样性驱动选择。** 我们设计了一种多样性驱动的解选择策略,并引入了一个新颖的 \\(\\text{IGD}_{\\text{offline}}\\) 指标,该指标专门为离线场景定制。该指标用偏移的离线参考代替不可用的真实帕累托前沿,避免了超体积对极端解的偏向,并且无需主动查询即可实现可靠的多样性评估。
- **强大的实证表现。** 在合成和实际基准上的大量实验表明,在收敛性和多样性方面,DOMOO在比较方法中实现了跨任务的最佳平均排名。
接下来的部分介绍相关工作与预备知识,描述所提出的DOMOO方法,展示实验结果,并总结全文。
## 2 相关工作
缓解OOD问题的离线单目标优化方法分为三类:前向方法(例如COMs(Trabucco等人,2021 (https://arxiv.org/html/2606.15115#bib.bib23))、NEMO(Fu和Levine,2021 (https://arxiv.org/html/2606.15115#bib.bib5))、COOREM(Zhu等人,2025 (https://arxiv.org/html/2606.15115#bib.bib7)))、生成模型(例如MIN(Kumar和Levine,2020 (https://arxiv.org/html/2606.15115#bib.bib29))、CbAS(Brookes等人,2019 (https://arxiv.org/html/2606.15115#bib.bib24)))以及基于轨迹的方法(例如BONET(Mashkaria等人,2023 (https://arxiv.org/html/2606.15115#bib.bib56))、PGS(Chemingui等人,2024 (https://arxiv.org/html/2606.15115#bib.bib57)))。这些方法分别专注于代理鲁棒性、带正则化的分布学习,以及利用合成轨迹探索离线数据集之外的高质量解。尽管这些方法缓解了OOD问题,但将其扩展到多目标场景具有挑战性,因为需要在相互冲突的目标之间平衡多样性和收敛性。像Design-Bench(Trabucco等人,2022 (https://arxiv.org/html/2606.15115#bib.bib35))和SOO-Bench(Qian等人,2025 (https://arxiv.org/html/2606.15115#bib.bib83))这样的基准测试为离线单目标优化提供了标准化的评估协议;然而,直到Off-MOO-Bench(Xue等人,2024 (https://arxiv.org/html/2606.15115#bib.bib64))出现,多目标情况下才存在类似的基准框架。
**离线多目标优化。** 离线MOO通常采用三种主要方法:进化算法、贝叶斯优化和基于深度神经网络的方法。基于种群的搜索策略常用于进化算法,其中训练的代理模型充当oracle来指导优化过程。遵循这一范式的代表性方法包括DDMOEA/GAN(Zhang等人,2024 (https://arxiv.org/html/2606.15115#bib.bib60))、MS-RV(Yang等人,2020 (https://arxiv.org/html/2606.15115#bib.bib59))和IBEA-MS(Liu等人,2023 (https://arxiv.org/html/2606.15115#bib.bib58))。类似地,贝叶斯优化也使用代理模型作为oracle,但通过采集函数选择候选解并迭代更新选择。在多目标贝叶斯优化(MOBO)框架下已经提出了各种方法和改进,包括MOBO-qNEHVI(Daulton等人,2021 (https://arxiv.org/html/2606.15115#bib.bib61))、MOBO-qParEGO(Knowles,2006 (https://arxiv.org/html/2606.15115#bib.bib62))、MOBO-JES(Hvarfner等人,2022 (https://arxiv.org/html/2606.15115#bib.bib63))等。与前两类难以有效解决OOD问题的方法不同,基于神经网络的方法可以通过用离线单目标优化中采用的前向方法(例如COMs(Trabucco等人,2021 (https://arxiv.org/html/2606.15115#bib.bib23))、IOMs(Qi等人,2022 (https://arxiv.org/html/2606.15115#bib.bib17))、Tri-Mentoring(Chen等人,2023 (https://arxiv.org/html/2606.15115#bib.bib32)))的代理模型替换传统代理模型,并通过使用多个模型(Xue等人,2024 (https://arxiv.org/html/2606.15115#bib.bib64))来处理离线MOO,从而缓解这个问题。虽然这些方法具有很强的收敛特性,但它们没有考虑如何保持帕累托前沿(PF)上解的多样性。
**帕累托集学习。** PSL是一种最近提出的基于模型的方法,通过训练神经网络学习从偏好向量到帕累托最优解的映射。PSL-MOBO(Lin等人,2022 (https://arxiv.org/html/2606.15115#bib.bib16))是首个将PSL与MOBO集成的方法,通过基于代理模型学习偏好条件解生成器,能够高效逼近黑盒PF。EPS(Ye等人,2024 (https://arxiv.org/html/2606.15115#bib.bib79))将进化算法与PSL结合,通过自适应演化偏好向量实现了更快的收敛和更广泛的PF覆盖。CDM-PSL(Li等人,2025 (https://arxiv.org/html/2606.15115#bib.bib71))将扩散模型引入帕累托集学习用于MOBO,通过条件采样和基于熵的引导,在有限评估下实现了改进的解质量和多样性。然而,PSL-MOBO严重依赖高斯过程代理,而高斯过程代理主要是为在线评估开发的。当应用于离线优化时,它们经常遇到严重的OOD问题。
## 3 预备知识
### 3.1 离线多目标优化
在离线MOO中,目标是仅使用固定的静态数据集 \\(\\mathcal{D}=\\{(\\bm{x}_{i},\\bm{y}_{i})\\}_{i=1}^{N}\\) 同时优化多个相互冲突的目标,其中 \\(\\bm{x}_{i} \\in \\mathcal{X} \\subset \\mathbb{R}^{D}\\) 表示候选解,\\(\\bm{y}_{i}\\) 是关联的目标向量。MOO问题可以正式表述为 \\(\\min_{\\bm{x} \\in \\mathcal{X}} \\bm{f}(\\bm{x}) = (f_{1}(\\bm{x}), f_{2}(\\bm{x}), \\dots, f_{M}(\\bm{x}))\\),其中 \\(\\bm{f}: \\mathcal{X} \\to \\mathbb{R}^{M}\\) 由 \\(M\\) 个独立目标函数组成。
###### 定义 3.1 (帕累托最优解 (Ehrgott, 2005 (https://arxiv.org/html/2606.15115#bib.bib52)))。 一个解 \\(\\bm{x}^{*} \\in \\mathcal{X}\\) 被称为帕累托最优的,如果不存在其他解 \\(\\bm{x}' \\in \\mathcal{X}\\) 使得 \\(\\forall i \\in \\{1,2,\\dots,M\\}\\),有 \\(f_{i}(\\bm{x}') \\leq f_{i}(\\bm{x}^{*})\\),且至少有一个严格不等式成立,即 \\(\\exists j \\in \\{1,2,\\dots,M\\}\\) 使得 \\(f_{j}(\\bm{x}') < f_{j}(\\bm{x}^{*})\\)。
帕累托前沿(PF)定义为目标空间中所有帕累托最优解的集合。在离线设置中,函数评估的成本很高,因此目标是最小化代理模型预测的不确定性,同时从固定数据集中学习PF。
### 3.2 帕累托集学习
PSL旨在学习一个函数 \\(g: \\mathbb{R}^{M} \\to \\mathcal{X}\\),将偏好向量 \\(\\bm{\\lambda} \\in \\mathbb{R}^{M}\\) 映射到帕累托最优解 \\(\\bm{x}\\)。通常,使用一个参数化模型(例如神经网络)来近似 \\(g\\)。偏好向量 \\(\\bm{\\lambda}\\) 表示每个目标的相对重要性,通常定义为权重,使得 \\(\\sum_{i=1}^{M} \\lambda_{i} = 1\\) 且 \\(\\lambda_{i} \\geq 0\\)。给定一组偏好 \\(\\Lambda\\),PSL通过训练模型 \\(g_{\\theta}\\) 来优化目标,使得生成的解 \\(g_{\\theta}(\\bm{\\lambda})\\) 通过一个聚合函数(例如加权求和)在偏好引导下表现良好。
在在线MOBO设置中,PSL被用作学习解分布的高效工具。然而,在离线设置中,代理模型的不准确性会破坏这一映射。
### 3.3 反转多目标距离 (IGD) 指标
IGD指标通过计算真实PF上的点到近似PF(由优化算法找到的解集)的速度来衡量解集的质量。给定一个近似集 \\(P'\\),IGD定义为:
\\[
\\text{IGD}(P', P) = \\frac{1}{|P|} \\sum_{\\bm{y} \\in P} \\min_{\\bm{y}' \\in P'} \\|\\bm{y} - \\bm{y}'\\|_2
\\]
其中 \\(P\\) 是来自真实PF的一组参考点。IGD值越低,表明近似集在收敛性和多样性方面越接近真实PF。
## 4 所提出的方法
在本节中,我们介绍多样性驱动的离线多目标优化(DOMOO)。DOMOO的核心是一个嵌套帕累托集学习(NPSL)框架,该框架由三个关键组件组成:累积风险控制、联合偏好学习以及基于离线IGD指标的多样性驱动选择策略。算法的完整伪代码在算法1中提供。
### 算法1 多样性驱动的离线多目标优化 (DOMOO)
**输入:** 离线数据集 \\(\\mathcal{D}\\),代理模型 \\(f_{\\phi}\\),PSL模型 \\(g_{\\theta}\\),迭代次数 \\(T_{\\text{pre}}\\)、\\(T_{\\text{exp}}\\)、\\(T_{\\text{psl}}\\),参考点选择比例 \\(r\\)。
1: 在 \\(\\mathcal{D}\\) 上训练代理模型 \\(f_{\\phi}\\)。
2: 初始化PSL模型 \\(g_{\\theta}\\) 和偏好向量集 \\(\\Lambda\\)。
3: **for** 外循环迭代 \\(t = 1\\) 到 \\(T_{\\text{psl}}\\) **do**
4: **for** 内循环迭代 \\(i = 1\\) 到 \\(T_{\\text{exp}}\\) **do**
5: **for** 每个 \\(\\bm{\\lambda} \\in \\Lambda\\) **do**
6: 从 \\(g_{\\theta}(\\bm{\\lambda})\\) 采样候选解 \\(\\bm{x}\\)。
7: 使用累积风险控制模块估计风险 \\(R(\\bm{x})\\)。
8: **if** \\(R(\\bm{x}) > \\text{阈值}\\) **then**
9: 拒绝该解并对 \\(\\bm{\\lambda}\\) 施加惩罚。
10: **end if**
11: **end for**
12: 根据方程(2)通过梯度下降更新偏好 \\(\\bm{\\lambda}\\)。
13: **end for**
14: **if** 当前迭代 \\(t > T_{\\text{pre}} + T_{\\text{exp}}\\) **then**
15: 根据方程(3)通过梯度下降更新PSL参数 \\(\\theta\\)。
16: **end if**
17: **end for**
18: 绘制多样化的偏好向量 \\(\\Lambda'\\)。
19: 使用训练好的PSL模型生成候选解集 \\(S_{\\text{psl}} = \\{g_{\\theta}(\\bm{\\lambda}) : \\bm{\\lambda} \\in \\Lambda'\\}\\)。
20: 从代理模型中采样解集 \\(S_{\\text{surr}}\\)。
21: 合并候选集 \\(S = S_{\\text{psl}} \\cup S_{\\text{surr}}\\)。
22: **第一阶段选择:** 在合并集上使用 \\(\\text{IGD}_{\\text{offline}}\\) 选择解。
23: **第二阶段选择:** 使用非支配排序从第一阶段选择的解中提取帕累托最优集。
24: **返回:** 最终解集。
### 4.1 累积风险控制
为了解决OOD问题,DOMOO引入了一个累积风险控制模块。对于每个候选解 \\(\\bm{x}\\),该模块基于代理模型的不确定性估计量化潜在风险。令 \\(R(\\bm{x})\\) 表示风险得分,定义为:
\\[
R(\\bm{x}) = \\sigma\\left( \\sum_{i=1}^{M} \\text{Var}[f_{i}(\\bm{x})] \\right)
\\]
其中 \\(\\text{Var}[f_{i}(\\bm{x})]\\) 是代理模型对目标 \\(i\\) 在 \\(\\bm{x}\\) 处的预测方差,\\(\\sigma(\\cdot)\\) 是一个归一化函数(例如sigmoid),将风险映射到 \\((0,1)\\) 区间。在训练期间,具有高风险的解会被拒绝,或者相应的偏好受到惩罚,以防止PSL模型生成不安全的解。风险阈值通过验证性能动态调整。
### 4.2 偏好更新的风险感知策略
与标准的PSL不同,DOMOO采用嵌套优化来同时学习偏好向量 \\(\\bm{\\lambda}\\) 和PSL模型参数 \\(\\theta\\)。内循环(算法1第4-13行)专注于更新偏好向量以探索PF上被低估的区域,同时抑制高风险探索。对于每个偏好 \\(\\bm{\\lambda}\\),在第 \\(i\\) 次迭代时,更新规则为:
\\[
\\bm{\\lambda}^{(i+1)} = \\bm{\\lambda}^{(i)} - \\eta \\nabla_{\\bm{\\lambda}} \\left( \\text{Loss}(g_{\\theta}(\\bm{\\lambda}), \\bm{\\lambda}) + \\alpha R(g_{\\theta}(\\bm{\\lambda})) \\right)
\\tag{2}
\\]
其中 \\(\\text{Loss}(\\cdot, \\cdot)\\) 是一个衡量聚合性能的损失函数(例如Tchebycheff聚合),\\(\\eta\\) 是学习率,\\(\\alpha\\) 是风险正则化系数。第二项 \\(\\alpha R(\\cdot)\\) 惩罚高风险区域,引导偏好远离不确定区域。
### 4.3 PSL参数的联合优化
在外循环(算法1第15-19行)中,给定更新的偏好,PSL参数 \\(\\theta\\) 通过最小化以下损失函数进行优化:
\\[
\\mathcal{L}(\\theta) = \\sum_{\\bm{\\lambda} \\in \\Lambda} \\left[ \\text{Loss}(g_{\\theta}(\\bm{\\lambda}), \\bm{\\lambda}) + \\beta \\cdot \\text{Div}(g_{\\theta}(\\bm{\\lambda})) \\right]
\\tag{3}
\\]
其中 \\(\\text{Div}(\\cdot)\\) 是一个促进生成解之间多样性的正则化项(例如基于成对距离的惩罚),\\(\\beta\\) 控制多样性权重。这一机制确保最终的解集在PF上具有良好的覆盖性,同时避免拥挤。
### 4.4 多样性驱动的选择与 \\(\\text{IGD}_{\\text{offline}}\\)
为了从生成的候选集中选择最终解,DOMOO设计了一种基于新指标 \\(\\text{IGD}_{\\text{offline}}\\) 的两阶段选择策略。在离线场景中,真实PF未知。因此,我们使用数据集中已知的最佳帕累托解集作为参考,但对其进行偏移以近似真实PF。定义为:
\\[
\\text{IGD}_{\\text{offline}}(P') = \\frac{1}{|P_{\\text{ref}}|} \\sum_{\\bm{y} \\in P_{\\text{ref}}} \\min_{\\bm{y}' \\in P'} \\|\\bm{y} - \\bm{y}'\\|_2
\\]
其中参考集 \\(P_{\\text{ref}}\\) 是通过在原始离线数据上应用非支配排序得到的帕累托最优集。为了减轻数据偏差,我们通过沿负方向(即朝向更优目标)平移每个参考点来对 \\(P_{\\text{ref}}\\) 进行偏移。平移量由数据集中每个目标的最小改进量决定。
在第一阶段(算法1第22行),计算合并候选集 \\(S\\) 每个子集的 \\(\\text{IGD}_{\\text{offline}}\\) 得分,并选择得分最低的子集。在第二阶段(第23行),对这些解进行非支配排序,并返回帕累托最优层中的解。
DOMOO通过风险感知的PSL和量身定制的选择指标,同时解决了离线MOO中的收敛性和多样性问题。相似文章
DOG-DPO:面向安全对齐的几何动态优化
DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。
超越模式崩溃:面向多样化推理的分布匹配
本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。
超越惩罚机制:基于扩散模型的离线强化学习分布外检测与选择性正则化
本文介绍了 DOSER,这是一种利用扩散模型进行分布外(OOD)检测和选择性正则化的框架,旨在离线强化学习中通过区分有益和有害的 OOD 动作来提升在静态数据集上的表现。
乐观对偶平均化统一了现代优化器
本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。
xi-DPO:通过比率奖励边际的直接偏好优化
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。