通用多类别直推式在线学习
摘要
本文介绍了Level-Constrained-Littlestone-Littlestone (LCLL)树,以刻画通用直推式在线分类中的可学习性,其中标签空间可能无界,并证明了最优错误率要么有界,要么呈对数增长。
arXiv:2605.30479v1 Announce Type: new
摘要:我们考虑通用直推式在线分类问题,其中标签空间可能无界。该设置考虑在线学习,实例序列(无标签)事先已知给学习者。我们说一个概念类$\mathcal{H}$是可学习的,如果存在一个学习算法$\mathcal{A}$,使得对于每一个可实现序列,$\mathcal{A}$所犯的错误次数随预测次数呈次线性增长。我们刻画了此设置的可学习性,并表明可学习类只有两种可能的最优速率:有界或对数增长。我们引入了一种新的组合结构,称为``Level-Constrained-Littlestone-Littlestone (LCLL)树'',它与无差异属性一起刻画了可学习性。我们还将可学习性结果扩展到不可知情形以及仅已知生成实例序列的随机过程的情形。
查看缓存全文
缓存时间: 2026/06/01 09:25
# 通用多类别转导在线学习 来源:https://arxiv.org/html/2605.30479 ###### 摘要 我们研究标签空间可能无界的通用转导在线分类问题。该设置考虑在线学习,其中实例序列(无标签)预先已知于学习器。我们称一个概念类H\\mathcal\{H\}是可学习的,如果存在一个学习算法A\\mathcal\{A\},使得对于每一个可实现序列,A\\mathcal\{A\}所犯错误数量最多以次线性方式随预测次数增长。我们刻画了此设置的可学习性,并表明可学习类仅存在两种可能的最优速率:有界或对数增长。我们引入了一种名为"层级约束 Littlestone-Littlestone (LCLL) 树"的新组合结构,它与"无关"性质一起,刻画了可学习性。我们还将可学习性结果扩展到了不可知情形以及仅知道生成实例序列的随机过程的情形。 机器学习,ICML ## 1 引言 在线学习 (Littlestone, 1988 (https://arxiv.org/html/2605.30479#bib.bib2)) 是一个序贯博弈。在每一轮,对手从实例空间X\\mathcal\{X\}中选择一个实例。学习器做出预测后,对手从标签空间Y\\mathcal\{Y\}中选择真实标签。目标是最小化学习器所犯错误的数量。在此设置下,学习器必须面对两种不确定性:*标签相关*的不确定性和*实例相关*的不确定性。弄清楚每种不确定性,特别是标签相关不确定性,在完整图景中所起的具体作用是一个有趣的问题。因此,Ben-David 等人 (1997 (https://arxiv.org/html/2605.30479#bib.bib1)) 引入了一种新的学习模型来消除实例相关的不确定性,这被称为离线学习。在该模型中,对手选择实例序列但预先将其透露给学习器。最近,Hanneke 等人 (2023b (https://arxiv.org/html/2605.30479#bib.bib4)) 将此设置重新命名为转导在线学习,因其与转导 PAC 学习 (Vapnik, 2006 (https://arxiv.org/html/2605.30479#bib.bib24)) 的相似性。两者都侧重于研究预先知道未标记数据的好处。研究通用转导在线学习的另一个动机来自 Hanneke 和 Wang (2024 (https://arxiv.org/html/2605.30479#bib.bib17)) 的工作。他们研究了在生成实例序列的随机过程的最小假设下,使用一般概念类进行乐观通用在线学习的问题。在该工作中,他们将概念类的假设引入到学习模型中。他们对随机过程所做的假设是:如果学习器知道该随机过程,则在线学习是可能的,这被称为"该过程允许通用在线学习"。因此,所有过程都允许通用在线学习的问题等价于通用在线可学习性问题,其中仅知道生成实例序列的随机过程。这与通用转导在线学习问题密切相关,后者是实例序列已知的通用在线可学习性问题。 转导在线学习。就像在线学习一样,转导在线学习也是一个序贯博弈。有两个玩家,对手和学习器。在博弈开始之前,对手可以选择一个实例序列X=\{Xt\}t∈N\\mathbb\{X\}=\\\{X\_\{t\}\\\}\_\{t\\in\\mathbb\{N\}\},使得对于每个tt,有Xt∈XX\_\{t\}\\in\\mathcal\{X\},其中X\\mathcal\{X\}是一个称为实例空间的非空集合。实例序列X\\mathbb\{X\}预先透露给学习器。然后在每一轮tt,学习器基于实例序列X\\mathbb\{X\}和真实标签的历史记录做出预测Y^t\\hat\{Y\}\_\{t\}。...(以下为算法和定理的数学表述部分,需按上述原则翻译)... ###### 引理 4.9。如果H\\mathcal\{H\}没有无限无关的 Littlestone 树,则PBP\_\{B\}有获胜策略。证明类似于引理 4.4 (https://arxiv.org/html/2605.30479#S4.Thmtheorem4) 的证明,主要工具也是 Borel 确定性定理。为简洁,完整证明见附录。注意PBP\_\{B\}的获胜策略完全由UU决定,因此我们用gUg\_\{U\}来表示它。然后我们可以使用PBP\_\{B\}的获胜策略得到算法 2 (https://arxiv.org/html/2605.30479#alg2),对于每个可实现序列\(X,Y\)∈R\(H\)\(\\mathbb\{X\},\\mathbb\{Y\}\)\\in\\text\{R\}\(\\mathcal\{H\}\),该算法仅犯有限个错误。这里,HgU\\mathcal\{H\}^\{g\_\{U\}\}是由获胜策略gUg\_\{U\}诱导的部分概念类,定义如下。 HgU=\{h:∀tk,∀Bk,\(h\(Xtk−1\),...,h\(Xtk\)\)≠gU\(tk,Bk\)\},\\displaystyle\\mathcal\{H\}^\{g\_\{U\}\}=\\\{h:\\forall t\_\{k\},\\forall B\_\{k\},\(h\(X\_\{t\_\{k\-1\}\}\),\\ldots,h\(X\_\{t\_\{k\}\}\)\)\\neq g\_\{U\}\(t\_\{k\},B\_\{k\}\)\\\},其中,对于每个tkt\_\{k\},BkB\_\{k\}定义如下: Bk=\{\(ytk−1\+1,...,ytk−1,ytk0\),\(ytk−1\+1,...,ytk−1,ytk1\)\}\\displaystyle B\_\{k\}=\\\{\(y\_\{t\_\{k\-1\}\+1\},\\ldots,y\_\{t\_\{k\}\-1\},y\_\{t\_\{k\}\}^\{0\}\),\(y\_\{t\_\{k\-1\}\+1\},\\ldots,y\_\{t\_\{k\}\-1\},y\_\{t\_\{k\}\}^\{1\}\)\\\} 算法 2 针对无无限无关 Littlestone 树的H\\mathcal\{H\}的学习算法 U←\{\}U\\leftarrow\\\{\\\}。 t′←0t^\{\\prime\}\\leftarrow 0。 对于 t=1,2,3,...t=1,2,3,\\dots 执行 如果 t≥t′t\\geq t^\{\\prime\} 且存在 Bk=\{\(ytk−1\+1,...,ytk−1,ytk0\),\(ytk−1\+1,...,ytk−1,ytk1\)\}B\_\{k\}=\\\{\(y\_\{t\_\{k\-1\}\+1\},\\ldots,y\_\{t\_\{k\}\-1\},y\_\{t\_\{k\}\}^\{0\}\),\(y\_\{t\_\{k\-1\}\+1\},\\ldots,y\_\{t\_\{k\}\-1\},y\_\{t\_\{k\}\}^\{1\}\)\\\},使得 gU\(t,Bk\)=\(Yt′\+1,...,Yt\)g\_\{U\}\(t,B\_\{k\}\)=\(Y\_\{t^\{\\prime\}\+1\},\\ldots,Y\_\{t\}\) 则 更新博弈:U←U∪\{\(t,Bk,\(Yt′\+1,...,Yt\)\)\}U\\leftarrow U\\cup\\\{\(t,B\_\{k\},\(Y\_\{t^\{\\prime\}\+1\},\\ldots,Y\_\{t\}\)\)\\\}。 t′←tt^\{\\prime\}\\leftarrow t。 结束如果 如果 ∃h∈HgU,h\(Xt\)=y\\exists h\\in\\mathcal\{H\}^\{g\_\{U\}\},h\(X\_\{t\}\)=y。则 预测 Yt^=y\\hat\{Y\_\{t\}\}=y。 结束如果 结束循环 ###### 引理 4.10。对于每个序列\(X,Y\)∈R\(H\)\(\\mathbb\{X\},\\mathbb\{Y\}\)\\in\\text\{R\}\(\\mathcal\{H\}\),如果H\\mathcal\{H\}没有无限无关的 Littlestone 树,则存在常数t0t\_\{0\},使得对于每个t≥t0t\\geq t\_\{0\},XtX\_\{t\}不被HgU\\mathcal\{H\}^\{g\_\{U\}\}破碎。 ###### 证明。根据定义,PBP\_\{B\}的获胜策略导致PBP\_\{B\}的获胜条件。由PBP\_\{B\}的获胜条件定义,我们知道存在常数kk,使得对于每个tk\>tk−1t\_\{k\}\>t\_\{k\-1\},XtkX\_\{t\_\{k\}\}不被HgU\\mathcal\{H\}^\{g\_\{U\}\}破碎。证明完成。∎ 根据引理 4.10 (https://arxiv.org/html/2605.30479#S4.Thmtheorem10) 和定义 4.3 (https://arxiv.org/html/2605.30479#S4.Thmtheorem3),我们知道对于所有t\>t0t\>t\_\{0\},每个h∈HgUh\\in\\mathcal\{H\}^\{g\_\{U\}\}满足h\(Xt\)=Yth\(X\_\{t\}\)=Y\_\{t\}。因此,预测就是真实标签YtY\_\{t\}。所以,该算法犯有限数量的错误。 ## 5 不可知设置 在本节中,我们给出不可知设置下可学习性结果的高层证明思路,该结果正式表述为定理 2.9 (https://arxiv.org/html/2605.30479#S2.Thmtheorem9)。为简洁,所有完整证明推迟到附录 C (https://arxiv.org/html/2605.30479#A3)。为了证明上界,我们需要首先基于可实现情况下的学习算法构建专家。这里的专家是一个带有两个硬编码输入II和JJ的算法。I=\(X≤k,Y≤k∗\)I=\(X\_\{\\leq k\},Y^\{\*\}\_\{\\leq k\}\),其中k∈Nk\\in\\mathbb\{N\}是常数,这是一个用于博弈更新部分的幻觉序列,J⊆NJ\\subseteq\\mathbb\{N\}标记了在学习\(X,Y∗\)\(\\mathbb\{X\},\\mathbb\{Y\}^\{\*\}\)过程中,博弈更新部分之后,当Yt=Yt∗Y\_\{t\}=\\mathcal\{Y\}^\{\*\}\_\{t\}时,可实现算法所犯错误的索引。当时间在II的集合中时,专家的预测由II存储的幻觉标签给出。对于其余时间,如果轮次索引在集合JJ中,专家将预测一个随机标签。我们可以为上述定义的专家证明以下引理。 ###### 引理 5.1。如果H\\mathcal\{H\}没有无限无关的 LCLL 树,对于每个可实现序列\(X,Y\)∈R\(H\)\(\\mathbb\{X\},\\mathbb\{Y\}\)\\in\\text\{R\}\(\\mathcal\{H\}\),我们有一个序列\{jT\}T∈N\\\{j\_\{T\}\\\}\_\{T\\in\\mathbb\{N\}\}满足logjT=O\(\(logT\)2\)\\log j\_\{T\}=O\(\(\\log T\)^\{2\}\),使得对于每个足够大的时间TT,我们有一个专家ei,je\_\{i,j\},其中j≤jTj\\leq j\_\{T\},使得对于所有t≤Tt\\leq T,除了最多O\(logT\)O\(\\log T\)次外,有Yt=ei,j\(Xt\)Y\_\{t\}=e\_\{i,j\}\(X\_\{t\}\)。 然后,我们可以使用来自 Koolen 和 van Erven (2015 (https://arxiv.org/html/2605.30479#bib.bib26)) 工作的*Squint*算法,并采用非均匀初始权重。对于每个专家ei,je\_\{i,j\},我们将其初始权重设为πi,j=1i\(i\+1\)j\(j\+1\)\\pi\_\{i,j\}=\\frac\{1\}\{i\(i\+1\)j\(j\+1\)\},这构成一个分布,因为πi,j=1i\(i\+1\)j−1i\(i\+1\)\(j\+1\)\\pi\_\{i,j\}=\\frac\{1\}\{i\(i\+1\)j\}\-\\frac\{1\}\{i\(i\+1\)\(j\+1\)\},且∑j=1∞pi,j=1i−1i\+1\\sum\_\{j=1\}^\{\\infty\}p\_\{i,j\}=\\frac\{1\}\{i\}\-\\frac\{1\}\{i\+1\},当ii和jj趋于无穷时,πi,j\\pi\_\{i,j\}的和达到11。根据 Koolen 和 van Erven (2015 (https://arxiv.org/html/2605.30479#bib.bib26)) 工作中的定理 3,我们有以下遗憾上界 ∑t=1TI\[Y^t≠Yt\]−∑t=1TI\[ei,j\(Xt\)≠Yt\]\\displaystyle\\sum\_\{t=1\}^\{T\}\\mathbb\{I\}\\left\[\\hat\{Y\}\_\{t\}\\neq Y\_\{t\}\\right\]\-\\sum\_\{t=1\}^\{T\}\\mathbb\{I\}\\left\[e\_\{i,j\}\(X\_\{t\}\)\\neq Y\_\{t\}\\right\] ≤O\(Vi,jloglogVi,jπi,j\+log1πi,j\)。\\displaystyle\\leq O\\left\(\\sqrt\{V\_\{i,j\}\\log\\frac\{\\log V\_\{i,j\}\}\{\\pi\_\{i,j\}\}\+\\log\\frac\{1\}\{\\pi\_\{i,j\}\}\}\\right\)。这里,Vi,jV\_\{i,j\}是每一轮中算法错误与专家ei,je\_\{i,j\}错误之差的平方和。换句话说,我们有 Vi,j=∑t=1T\(I\[Y^t≠Yt\]−I\[ei,j\(Xt\)≠Yt\]\)2。V\_\{i,j\}=\\sum\_\{t=1\}^\{T\}\\left\(\\mathbb\{I\}\\left\[\\hat\{Y\}\_\{t\}\\neq Y\_\{t\}\\right\]\-\\mathbb\{I\}\\left\[e\_\{i,j\}\(X\_\{t\}\)\\neq Y\_\{t\}\\right\]\\right\)^\{2\}。注意\(I\[Y^t≠Yt\]−I\[ei,j\(Xt\)≠Yt\]\)2\\left\(\\mathbb\{I\}\\left\[\\hat\{Y\}\_\{t\}\\neq Y\_\{t\}\\right\]\-\\mathbb\{I\}\\left\[e\_\{i,j\}\(X\_\{t\}\)\\neq Y\_\{t\}\\right\]\\right\)^\{2\}要么是11要么是0,我们有Vi,j≤TV\_\{i,j\}\\leq T。该算法的遗憾由以下式子限定上界: O\(Vi,jloglogVi,jπi,j\+log1πi,j\)\\displaystyle O\\left\(\\sqrt\{V\_\{i,j\}\\log\\frac\{\\log V\_\{i,j\}\}\{\\pi\_\{i,j\}\}\+\\log\\frac\{1\}\{\\pi\_\{i,j\}\}\}\\right\) =O\(TloglogT\+T\(logi\+logj\)\+\(logi\+logj\)\)。\\displaystyle O\\left\(\\sqrt\{T\\log\\log T\+T\(\\log i\+\\log j\)\+\(\\log i\+\\log j\)\}\\right\)。 另一方面,我们还证明了不可知设置下的一个下界,即,对于一个包含多于两个概念的概念类,没有学习算法能保证对于每个序列\(X,Y,Y∗\)\(\\mathbb\{X\},\\mathbb\{Y\},\\mathbb\{Y\}^\{\*\}\),错误数量为o\(T\)o\(\\sqrt\{T\}\)。正式地, ###### 引理 5.2。对于每个包含两个概念h1,h2h\_\{1\},h\_\{2\}且存在xx使得h1\(x\)≠h2\(x\)h\_\{1\}\(x\)\\neq h\_\{2\}\(x\)的概念类H\\mathcal\{H\},对于每个学习算法A\\mathcal\{A\},存在一个序列\(X,Y,Y∗\)\(\\mathbb\{X\},\\mathbb\{Y\},\\mathbb\{Y\}^\{\*\}\)使得Regret\(A,\(X,Y,Y∗\),T\)≠o\(T\)\\text\{Regret\}\(\\mathcal\{A\},\(\\mathbb\{X\},\\mathbb\{Y\},\\mathbb\{Y\}^\{\*\}\),T\)\\neq o\(\\sqrt\{T\}\)。 为了证明这个引理,我们需要构造一个无限序列,使得没有在线学习算法能够以o\(T\)o\(\\sqrt\{T\}\)的遗憾转导地学习它。序列X\\mathbb\{X\}是一个由Xt=xX\_\{t\}=x组成的无限序列,使得h1\(x\)≠h2\(x\)h\_\{1\}\(x\)\\neq h\_\{2\}\(x\)。然后我们使用一些概率论证,即,如果我们独立地均匀随机选择h1\(x\)h\_\{1\}\(x\)或h2\(x\)h\_\{2\}\(x\)作为YtY\_\{t\},则存在一个无限序列Y\\mathbb\{Y\}和Y∗=\{h1\(Xi\)\}i∈N\\mathbb\{Y\}^\{\*\}=\\\{h\_\{1\}\(X\_\{i\}\)\\\}\_\{i\\in\\mathbb\{N\}\}或\{h2\(Xi\)\}i∈N\\\{h\_\{2\}\(X\_\{i\}\)\\\}\_\{i\\in\\mathbb\{N\}\},使得任何在线学习算法的遗憾不是o\(T\)o\(\\sqrt\{T\}\)的概率大于0。为了证明这一点,我们将无限序列分成大小递增的块,并在每个块上使用 Khinchine 不等式,以表明该块上的期望遗憾是Ω\(T\)\\Omega\(\\sqrt\{T\}\)。然后,通过 Azuma 不等式,我们可以限制生成那个迫使任何算法遭受Ω\(T\)\\Omega\(\\sqrt\{T\}\)遗憾的序列的概率。然后,我们可以通过逆 Fatou 引理将该块上的结果扩展到无限序列上的结果。为简洁,完整证明见附录 C (https://arxiv.org/html/2605.30479#A3)。 ## 6 结论与未来方向 在本文中,我们研究了通用多类别转导在线学习。我们证明了可实现设置下的一个三分法。为了描述这个三分法,我们定义了一个新的组合结构,即层级约束 Littlestone-Littlestone 树,并强调了树的无关性质。W相似文章
图传导锐化:在节点分类中利用无标签预测
本文介绍了传导锐化(TS),一种用于半监督节点分类的损失级修改,它最小化无标签节点上的预测熵,同时平衡有标签节点的效果,在不改变架构的情况下实现一致的性能提升。
基于边际自校正的大规模快速遗忘
介绍了MASC(边际自校正),一种用于大型语言模型的高效遗忘方法,采用在线停止规则,以降低的计算成本实现有竞争力的遗忘-保持权衡,并在TOFU和MUSE基准上得到验证。
LLMs中的多语言去学习:迁移、动力学与可逆性
本文通过将TOFU基准扩展到五种语言,研究了LLMs中的多语言去学习。研究发现,去学习迁移因文字和语言家族而异,主要作用于后几层解码层,并且单个引导方向可以恢复跨语言被抑制的大部分知识。
模型遗忘目标因语言功能不同而异
本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。
私有随机决策理论在线学习中的最优间隔依赖遗憾
本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法,解决了COLT开放问题,达到了阶 (log K)/Δ_min + (log K)/ε 的下界。