一个基于最优传输理论的在线增量学习潜在空间培育方法

Hugging Face Daily Papers 论文

摘要

本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。

在在线增量学习中,数据持续到达且伴随显著的分布漂移,这带来了重大挑战,因为先前样本在学习新任务时的回放价值有限。以往的研究通常依赖于单个自适应质心或多个固定质心来表示潜在空间中的每个类别。然而,当类别数据流本质上具有多模态性且需要持续质心更新时,此类方法会陷入困境。为此,我们引入了一种基于最优传输理论的在线混合模型学习框架(MMOT),其中质心随着新数据逐步演化。该方法有两个主要优势:(i)能更精确地刻画复杂数据流;(ii)通过MMOT衍生的质心,在推理阶段实现对未见样本更好的类别相似性估计。此外,为强化表示学习并缓解灾难性遗忘,我们设计了一种动态保持策略,用于调控潜在空间并随时间维持类别可分离性。在基准数据集上的实验评估证实了我们所提出方法的优越有效性。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - 一种基于最优传输理论的在线增量学习潜空间培育方法

来源:https://huggingface.co/papers/2211.16780

摘要

一种基于最优传输理论的在线混合模型学习框架,通过实现动态质心更新和改进类别相似度估计,应对增量学习中的分布漂移挑战。

在在线增量学习(https://huggingface.co/papers?q=online%20incremental%20learning)场景中,数据持续到达且存在显著的分布漂移(https://huggingface.co/papers?q=distributional%20shifts),这对学习新任务构成了重大挑战,因为先前样本的重放价值有限。以往的研究通常依赖于单一的适应性质心(https://huggingface.co/papers?q=adaptive%20centroid)或多个固定质心(https://huggingface.co/papers?q=fixed%20centroids)来表示潜空间(https://huggingface.co/papers?q=latent%20space)中的每个类别。然而,当类别数据流本身具有多模态特性且需要持续更新质心时,这些方法往往效果不佳。为了克服这一局限,我们引入了一种基于最优传输理论(https://huggingface.co/papers?q=Optimal%20Transport%20theory)的在线混合模型(https://huggingface.co/papers?q=Mixture%20Model)学习框架(MMOT),使质心能够随新数据逐步演化。该方法具有两大优势:(i)能够更精确地刻画复杂的数据流;(ii)通过MMOT派生的质心,在推理阶段实现对未见样本更优的类别相似度估计(https://huggingface.co/papers?q=class%20similarity%20estimation)。此外,为了强化表征学习(https://huggingface.co/papers?q=representation%20learning)并缓解灾难性遗忘(https://huggingface.co/papers?q=catastrophic%20forgetting),我们设计了一种动态保留策略(https://huggingface.co/papers?q=Dynamic%20Preservation%20strategy),该策略能够调控潜空间(https://huggingface.co/papers?q=latent%20space)并随时间维持类别可分性(https://huggingface.co/papers?q=class%20separability)。在基准数据集上的实验评估证实了我们所提出方法的卓越有效性。

查看arXiv页面(https://arxiv.org/abs/2211.16780)查看PDF(https://arxiv.org/pdf/2211.16780)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2211.16780)

在你的agent中获取这篇论文:

hf papers read 2211.16780

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2211.16780 即可从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2211.16780 即可从此页面链接。

引用此论文的Spaces0

没有链接此论文的Space

在Space README.md 中引用 arxiv.org/abs/2211.16780 即可从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,即可从此页面链接。

相似文章

通过隐式梯度传输加速基于 LMO 的优化

arXiv cs.LG

本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。

DOT-MoE:面向MoE化的可微最优传输

Hugging Face Daily Papers

DOT-MoE将密集层分解形式化为可微最优传输问题,能够高效训练稀疏MoE模型,在将活跃参数减少50%的同时保留原始模型90%的性能。

始终学习,始终混合:高效简单的全时数据混合

arXiv cs.CL

本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。

LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习

arXiv cs.LG

LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。