一个基于最优传输理论的在线增量学习潜在空间培育方法
摘要
本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - 一种基于最优传输理论的在线增量学习潜空间培育方法
来源:https://huggingface.co/papers/2211.16780
摘要
一种基于最优传输理论的在线混合模型学习框架,通过实现动态质心更新和改进类别相似度估计,应对增量学习中的分布漂移挑战。
在在线增量学习(https://huggingface.co/papers?q=online%20incremental%20learning)场景中,数据持续到达且存在显著的分布漂移(https://huggingface.co/papers?q=distributional%20shifts),这对学习新任务构成了重大挑战,因为先前样本的重放价值有限。以往的研究通常依赖于单一的适应性质心(https://huggingface.co/papers?q=adaptive%20centroid)或多个固定质心(https://huggingface.co/papers?q=fixed%20centroids)来表示潜空间(https://huggingface.co/papers?q=latent%20space)中的每个类别。然而,当类别数据流本身具有多模态特性且需要持续更新质心时,这些方法往往效果不佳。为了克服这一局限,我们引入了一种基于最优传输理论(https://huggingface.co/papers?q=Optimal%20Transport%20theory)的在线混合模型(https://huggingface.co/papers?q=Mixture%20Model)学习框架(MMOT),使质心能够随新数据逐步演化。该方法具有两大优势:(i)能够更精确地刻画复杂的数据流;(ii)通过MMOT派生的质心,在推理阶段实现对未见样本更优的类别相似度估计(https://huggingface.co/papers?q=class%20similarity%20estimation)。此外,为了强化表征学习(https://huggingface.co/papers?q=representation%20learning)并缓解灾难性遗忘(https://huggingface.co/papers?q=catastrophic%20forgetting),我们设计了一种动态保留策略(https://huggingface.co/papers?q=Dynamic%20Preservation%20strategy),该策略能够调控潜空间(https://huggingface.co/papers?q=latent%20space)并随时间维持类别可分性(https://huggingface.co/papers?q=class%20separability)。在基准数据集上的实验评估证实了我们所提出方法的卓越有效性。
查看arXiv页面(https://arxiv.org/abs/2211.16780)查看PDF(https://arxiv.org/pdf/2211.16780)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2211.16780)
在你的agent中获取这篇论文:
hf papers read 2211.16780
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2211.16780 即可从此页面链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2211.16780 即可从此页面链接。
引用此论文的Spaces0
没有链接此论文的Space
在Space README.md 中引用 arxiv.org/abs/2211.16780 即可从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,即可从此页面链接。
相似文章
通过隐式梯度传输加速基于 LMO 的优化
本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。
DOT-MoE:面向MoE化的可微最优传输
DOT-MoE将密集层分解形式化为可微最优传输问题,能够高效训练稀疏MoE模型,在将活跃参数减少50%的同时保留原始模型90%的性能。
IGT-OMD:延迟反馈下决策聚焦学习中的隐式梯度传输
本文识别了延迟反馈下双层优化中的“过时放大”现象,并提出IGT-OMD,该方法利用隐式梯度传输实现亚线性后悔,并在Warcraft最短路径和LQR等基准上改善了决策损失。
始终学习,始终混合:高效简单的全时数据混合
本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。
LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习
LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。