从通用到专长表示

arXiv cs.LG 2026/05/14 04:00 论文
identifiability representation-learning nonparametric task-relevant machine-learning theory icml
摘要
本文证明，在完全非参数设定下，无需干预或参数约束，即可从通用模型中识别出任务相关的潜在表示，实现了跨时间步和每一步内的层次化可识别性保证。
arXiv:2605.12733v1 公告类型：新发布摘要：给定一个通用模型，学习任务相关的专长表示是下游应用的基础。可识别性——即恢复真实表示的新近保证——至关重要，因为它设定了任何模型的最终极限，即使拥有无限数据和计算资源。我们在一个完全非参数设定下研究这一问题，不依赖干预、参数形式或结构约束。我们首先证明，在完全无监督的方式下，时间步与任务之间的结构是可识别的，即使序列缺乏严格的时间依赖性且可能出现断连，任务分配也可能遵循任意复杂和交错的结构。然后我们证明，在每个时间步内，任务相关的潜在表示可以在简单的稀疏正则化下与无关部分解耦，无需任何额外信息或参数约束。综合这些结果，我们建立了一个层次化基础：任务结构跨时间步可识别，任务相关的潜在表示在每个步内可识别。据我们所知，每个结果都提供了第一个通用的非参数可识别性保证，它们共同标志着从通用模型向专长模型迈出了可证明的一步。
查看原文
查看缓存全文
缓存时间: 2026/05/14 06:17
# 从通用到专用表示
出处：https://arxiv.org/html/2605.12733

###### 摘要
给定一个通用模型，学习与任务相关的专用表示对于下游应用至关重要。可辨识性，即渐近地保证恢复真实表示的能力，至关重要，因为它设定了任何模型的最终极限，即使有无限的数据和计算资源也是如此。我们在完全非参数设定下研究这个问题，不依赖于干预、参数形式或结构约束。我们首先证明，时间步与任务之间的结构在完全无监督的情况下是可辨识的，即使序列缺乏严格的时间依赖性并可能出现断开，且任务分配可以遵循任意复杂的交错结构。然后我们证明，在每个时间步内，在简单的稀疏正则化下，无需任何额外信息或参数约束，即可将与任务相关的潜在表示与无关部分解耦。这些结果共同建立了一个层次化基础：时间步跨度的任务结构是可辨识的，而每个时间步内与任务相关的潜在表示也是可辨识的。据我们所知，每个结果都提供了首个一般的非参数可辨识性保证，它们共同标志着向可证明地从通用模型转向专用模型迈出了一步。
机器学习，ICML

### 1 引言

从高维观测中学习潜在表示，是使机器能够理解和作用于世界的核心（Bengio 等，2013（https://arxiv.org/html/2605.12733#bib.bib264）；Schölkopf 等，2021（https://arxiv.org/html/2605.12733#bib.bib261））。例如，世界模型将原始感官输入压缩为捕获动态的低维特征（Ha and Schmidhuber，2018（https://arxiv.org/html/2605.12733#bib.bib260））。与对整个环境建模不同，任务相关的表示更为理想，因为它们只保留任务所需的信息，既提高了效率又增强了鲁棒性（Tishby and Zaslavsky，2015（https://arxiv.org/html/2605.12733#bib.bib258）；Wong 等，2025（https://arxiv.org/html/2605.12733#bib.bib259））。例如，在自动驾驶中，规划依赖于附近车辆和行人的位置与速度，而不是汽车颜色或路边广告牌。没有可辨识性，即使拥有无限的数据和计算，也无法保证学习到的表示反映真实情况。这一挑战长期以来一直是潜在表示学习的核心，并不局限于任务相关设定（Hyvärinen and Pajunen，1999（https://arxiv.org/html/2605.12733#bib.bib189）；Locatello 等，2019（https://arxiv.org/html/2605.12733#bib.bib190））。给定两个观测等价的模型 \(\mathbf{o}=f(\mathbf{s})\) 和 \(\mathbf{o}=\hat{f}(\hat{\mathbf{s}})\)，可能存在任意变换 \(\phi\) 使得 \(\hat{\mathbf{s}}=\phi(\mathbf{s})\)。在这种情况下，恢复出的潜在变量不一定与真实的潜在变量有任何有意义的对应关系。例如，任务相关变量可能与无关因素纠缠在一起，从而无法隔离出真正对任务重要的部分。这种模糊性给机器内部的世界模型带来了不可约的不确定性，限制了可达到的智能上限，并在高风险应用中产生风险。

现有理论为潜在表示的可辨识性提供了条件。在经典的线性设定下，可辨识性可以通过额外的参数假设获得，例如在因子模型中通过载荷约束（Anderson 等，1956（https://arxiv.org/html/2605.12733#bib.bib249）；Jöreskog，1969（https://arxiv.org/html/2605.12733#bib.bib250）；Shapiro，1985（https://arxiv.org/html/2605.12733#bib.bib251）），在线性独立成分分析（ICA）中通过非高斯性（Comon，1994（https://arxiv.org/html/2605.12733#bib.bib144）；Hyvärinen 等，2001（https://arxiv.org/html/2605.12733#bib.bib147）），以及在张量或多视图模型中通过 Kruskal 型秩条件（Kruskal，1977（https://arxiv.org/html/2605.12733#bib.bib252）；Sidiropoulos and Bro，2000（https://arxiv.org/html/2605.12733#bib.bib253）；Allman 等，2009（https://arxiv.org/html/2605.12733#bib.bib263））。最近，非线性理论沿着两条路线取得了进展。在非线性 ICA 中，一条路线利用跨领域或时间的辅助信息（Hyvärinen and Morioka，2016（https://arxiv.org/html/2605.12733#bib.bib153）；Hyvärinen 等，2019（https://arxiv.org/html/2605.12733#bib.bib138）；Yao 等，2021（https://arxiv.org/html/2605.12733#bib.bib227）；Hälvä 等，2021（https://arxiv.org/html/2605.12733#bib.bib236）；Lachapelle 等，2022（https://arxiv.org/html/2605.12733#bib.bib175）），另一条路线则约束混合函数类（Taleb and Jutten，1999（https://arxiv.org/html/2605.12733#bib.bib199）；Moran 等，2021（https://arxiv.org/html/2605.12733#bib.bib134）；Kivva 等，2022（https://arxiv.org/html/2605.12733#bib.bib78）；Zheng 等，2022（https://arxiv.org/html/2605.12733#bib.bib111）；Gresele 等，2021（https://arxiv.org/html/2605.12733#bib.bib137）；Buchholz 等，2022（https://arxiv.org/html/2605.12733#bib.bib83））。在因果表示学习中，可辨识性通常源于干预数据（von Kügelgen 等，2023（https://arxiv.org/html/2605.12733#bib.bib170）；Jiang and Aragam，2023（https://arxiv.org/html/2605.12733#bib.bib171）；Jin and Syrgkanis，2023（https://arxiv.org/html/2605.12733#bib.bib157）；Zhang 等，2024（https://arxiv.org/html/2605.12733#bib.bib169）；Varici 等，2025（https://arxiv.org/html/2605.12733#bib.bib265））或反事实视角（von Kügelgen 等，2021（https://arxiv.org/html/2605.12733#bib.bib205）；Brehmer 等，2022（https://arxiv.org/html/2605.12733#bib.bib173）），这需要对数据生成过程有一定控制。最近的工作考虑了没有额外信息的通用设定，假设潜在变量和观测变量都是布尔向量（Zhang 等，2025（https://arxiv.org/html/2605.12733#bib.bib180））。这些条件为恢复底层生成过程提供了重要见解，但可能过度限制了适用场景的范围。同时，大多数现有理论结果侧重于潜在系统的完全可辨识性：要么逐分量恢复所有潜在变量，要么将其识别到祖先或邻域。然而，这种全面的恢复通常是不必要的。在许多应用中，任务只依赖于潜在因素的子集——例如，在机器人操作中，成功取决于物体姿态和夹爪位置，而照明和纹理则无关。将目标从系统完全可辨识性转向任务相关可辨识性，可以在更弱的假设下直接支持规划、迁移和泛化。最近的工作探索了子空间分解（von Kügelgen 等，2021（https://arxiv.org/html/2605.12733#bib.bib205）；Kong 等，2022（https://arxiv.org/html/2605.12733#bib.bib115）；Li 等，2023（https://arxiv.org/html/2605.12733#bib.bib164）；Liu 等，2023（https://arxiv.org/html/2605.12733#bib.bib262）），旨在将潜在因素分解为可解释的块。然而，这些方法施加了固定的结构，例如内容-风格分离，并未设计用于适应灵活的任务设定——在灵活设定中，潜在变量可能对应于数量、结构和分配未知的任务，并且这种不确定性还可能随时间步变化。因此，问题依然存在：在一般设定下，任务相关的世界表示是否可辨识？

##### 贡献。
为了回答这个问题，我们开发了一个理论框架，用于从观测世界的复杂动态中识别任务相关的表示。我们的第一个结果证明，在完全一般的设定下，无需任何参数或结构假设，时间跨度的任务结构是可辨识的（第3节（https://arxiv.org/html/2605.12733#S3））。我们不需要严格的时间依赖性：时间步可能是断开的，甚至是独立同分布的，因此我们无法利用时间信息。此外，任务可以按任意顺序出现、消失和重现，允许任务-时间结构的交错。在识别出每个时间步的任务后，我们进一步探究哪些潜在变量与这些任务相关，并提供了首个非参数的可辨识性结果，用于在无需干预或函数约束的情况下识别任务相关潜在表示（第4节（https://arxiv.org/html/2605.12733#S4））。具体来说，我们表明，使用简单的任务-潜在正则化对预训练模型进行微调，可以可证明地将任务相关变量与无关变量解耦。这些结果共同标志着向建立从通用模型到专用模型的有原则路径迈出了一步，这些专用模型同时实现了压缩和保真度。

### 2 预备知识

参见图注
图1：生成过程示意图。潜在状态 \(\mathbf{s}_t\) 通过非线性函数生成观测 \(\mathbf{o}_t\)，并在变化的时序连接下与动作 \(\mathbf{a}_t\) 交互，其中连续步可能任意断开。任务 \(\mathbf{g}_i\) 被定义为跨时间步的碰撞器，不同任务可以任意交错。放大视图（右侧）展示了 \(\mathbf{s}_t\) 的不同分量如何通过中间动作连接到多个任务。

我们假设观测序列 \(\{\mathbf{o}_t\}_{t=1}^T\) 由潜在状态 \(\{\mathbf{s}_t\}_{t=1}^T\) 生成，其中 \(\mathbf{o}_t \in \mathbb{R}^{d_o}\)，\(\mathbf{s}_t \in \mathbb{R}^{d_s}\)，以及动作 \(\mathbf{a}_t \in \mathbb{R}^{d_a}\)。观测满足
\[
\mathbf{o}_t = f_t(\mathbf{s}_t),
\]
(1)
其中 \(f_t\) 是其像上的微分同胚。生成函数 \(f_t\) 是隐藏且完全未知的。我们允许变化的时序连接：对所有 \(t\) 有 \(\mathbf{s}_t \to \mathbf{a}_t\)，并且当边界 \(t\to t+1\) 连接时，有 \(\mathbf{a}_t \to \mathbf{s}_{t+1}\) 和 \(\mathbf{s}_t \to \mathbf{s}_{t+1}\)；当断开时，进入 \(\mathbf{s}_{t+1}\) 的两条边均被省略。与此一致的结构因果模型（SCM）定义为
\[
\mathbf{a}_t = \pi_t(\mathbf{s}_t, \eta_t),
\]
其中
\[
\mathbf{s}_{t+1} = 
\begin{cases}
F_t(\mathbf{s}_t, \mathbf{a}_t, \xi_t), & \text{如果 } t\to t+1 \text{ 是连接的},\\
F_t^0(\xi_t), & \text{否则},
\end{cases}
\]
(2)
并且噪声 \(\eta_t, \xi_t\) 相互独立。我们将任务 \(\{\mathbf{g}_i\}_{i=1}^M\) 定义为不同时间步之间的碰撞器，即如果时间步 \(t\) 与任务 \(\mathbf{g}_i\) 相关，则有 \(\mathbf{s}_t \to \mathbf{a}_t \to \mathbf{g}_i\)。该过程的示意图如图1（https://arxiv.org/html/2605.12733#S2.F1）所示，将任务定义为碰撞器而非其他形式的原因如下：给定观测变量 \(\{\mathbf{o}_t\}_{t=1}^T\) 和全局任务集 \(\{\mathbf{g}_i\}_{i=1}^M\)，我们的目标首先是识别连接时间步和任务的结构（第3节（https://arxiv.org/html/2605.12733#S3）），然后在每个潜在状态 \(\mathbf{s}_t\) 内，隔离出与关联任务相关的分量（第4节（https://arxiv.org/html/2605.12733#S4））。所有理论保证需要在没有额外信息的一般非参数设定下实现。

### 3 学习时间任务结构

我们首先在一般设定下建立时间-任务结构的可辨识性。这一结构至关重要，因为它构成了在每个时间步内恢复任务相关潜在表示的基础。如果不知道哪些任务在哪些时间活跃，那么在时间步级别解耦潜在变量将是病态的。在最一般的情景下提供形式化保证具有挑战性，主要源于以下原因：
- 隐藏过程完全非参数，没有辅助信息或分布约束。
- 任务可能在时间上任意交错，而经典分解假设顺序完成。
- 时间依赖性无法保证；序列可能包含任意断开的边界。

尽管存在这些挑战，我们证明在标准条件下，时间步与任务之间的结构是可辨识的。这一结果构成了我们框架的第一个支柱：在一般设定下，无需额外信息，对时间任务结构进行有原则的刻画。

#### 3.1 成对结构的刻画

我们假设有 \(T\) 个时间步，划分为 \(N\) 个等长的连续片段，每个片段长度 \(L=T/N\)，且 \(L \geq 2\)，\(N \mid T\)。定义
\[
\mathbf{S} = \{\mathbf{S}_1, \dots, \mathbf{S}_N\}, \quad \mathbf{S}_i = \{\mathbf{s}_{(i-1)L+1}, \dots, \mathbf{s}_{iL}\}.
\]
(3)
一个片段内的所有状态共享相同的活跃任务集，每个任务 \(\mathbf{g}_i\) 必须至少出现在两个片段中。片段可以很短（少至两步），从而灵活捕获状态变化。为了形式化理论中所用的条件，我们引入以下概念。

###### 定义 1（带条件集）.
对于 \(k<v\)，\(i \in \{1,\dots,M\}\)，定义
\[
\mathbf{Z}_{\mathrm{band}}(k,v,i) = \{ \mathbf{s}_{kL+1}, \dots, \mathbf{s}_{vL-1} \} \setminus \{ \mathbf{s}_{kL}, \mathbf{s}_{vL} \} \cup \{ \mathbf{g}_i \} \cap \{\mathbf{s}_1,\dots,\mathbf{s}_T\}.
\]
对于每个片段边界索引对 \((k,v)\)，该集合包含来自中间片段的所有状态，但排除两个边界状态 \(\mathbf{s}_{kL}\) 和 \(\mathbf{s}_{vL}\)，并加入任务 \(\mathbf{g}_i\)。直观上，这个集合“包围”了连接两个边界的路径，但排除了边界上的潜在状态。

**引理 1.** 假设所讨论的图满足马尔可夫性和忠实性。当 \(L>2\) 时，以下陈述等价：
1. 片段 \(k\) 和 \(v\) 共享任务 \(\mathbf{g}_i\)。
2. \(\mathbf{s}_{kL} \perp\not\perp \mathbf{s}_{vL} \mid \mathbf{Z}_{\mathrm{band}}(k,v,i)\)。

证明见附录 A.1。

**定理 1.** 假设马尔可夫性、忠实性以及每个片段内的状态在给定其潜在任务时的同质性。则在 \(\mathbf{S}\) 上的成对条件独立性测试足以唯一识别哪些片段对共享同一个任务。具体地，存在且仅存在一个划分 \(\{\mathcal{I}_1,\dots,\mathcal{I}_M\}\) 将片段索引 \(\{1,\dots,N\}\) 划分为不相交的类，使得对每个类 \(\mathcal{I}_i\)，对任意 \(k,v \in \mathcal{I}_i\) 有依赖关系成立，而对不同类中的索引其依赖关系不成立。该划分与任务的真实分组一致。

定理 1 表明，即使任务结构复杂且交错，我们仍然可以通过条件独立性测试恢复任务-时间关联。值得注意的是，我们利用了片段内状态同质性的假设，这在实际中可以通过学习粗略表示来逼近。

#### 3.2 片段同质性的必要性

前面的结果依赖于片段同质性的假设：给定相同任务集，同一片段内所有状态的条件分布相同。没有这一假设，识别可能不再唯一。举一个反例：假设每个片段有两个状态，它们参与不同任务的混合，则条件独立性测试可能无法区分真实结构与混淆结构。

**命题 1.** 存在一个生成过程，其中片段内状态并非同质，且成对条件独立性测试无法唯一识别任务结构，即使该结构实际上是可辨识的。

因此，同质性条件虽然并非总是必要，但在保证识别唯一性方面起着关键作用。

#### 3.3 扩展到任意边界

在实际中，片段边界可能不是预先固定的。我们表明，只要片段长度 \(L>2\)，任何边界选择都会导致等价的条件独立性模式。以下推论形式化了这一点。

**引理 2.** 假设所讨论的图满足马尔可夫性和忠实性，且 \(L>2\)。固定 \(k<v\)，并考虑另一个片段长度 \(L'>2\) 以及对应的边界索引 \(k'L'\) 和 \(v'L'\)，使得 \(\{ \mathbf{s}_{kL}, \mathbf{s}_{vL} \} \subseteq \mathbf{S}_{k'}\) 且 \(\{ \mathbf{s}_{kL+1}, \dots, \mathbf{s}_{vL-1} \} \subseteq \mathbf{S}_{k'+1} \cup \dots \cup \mathbf{S}_{v'-1}\)。那么，条件独立性的成立在两种边界选择下等价。

**推论 1.** 假设所讨论的图满足马尔可夫性和忠实性，且 \(L>2\)。固定片段 \(k\) 和 \(v\)，使得它们共享任务 \(\mathbf{g}_i\)。对于任何 \(k' < v'\)，如果片段 \(k'\) 包含 \(\mathbf{s}_{kL}\) 或 \(\mathbf{s}_{kL}\) 的邻居（在图中意义上），而片段 \(v'\) 包含 \(\mathbf{s}_{vL}\) 或 \(\mathbf{s}_{vL}\) 的邻居，则条件 \(\mathbf{s}_{k'L'} \perp\not\perp \mathbf{s}_{v'L'} \mid \mathbf{Z}_{\mathrm{band}}(k',v',i)\) 成立当且仅当 \(k',v'\) 均在相同任务类 \(\mathcal{I}_i\) 中。

证明思路：通过展示条件依赖关系在改变边界时保持不变来完成。关键观察是，从 \(\mathbf{s}_{kL}\) 到 \(\mathbf{s}_{vL}\) 的任何路径必须穿过片段 \(k\) 和 \(v\) 之间的区域。如果边界改变，新的边界状态要么是原始边界状态本身，要么是其直接邻居，而邻居在给定带条件集时仍会打开相同的路径。因此，条件独立性的模式仍然一致。

### 4 识别任务相关潜在表示

在识别出哪些时间步属于哪个任务后，我们现在面对第二个问题：在给定的任务相关时间步 \(t\) 内，潜在状态 \(\mathbf{s}_t\) 的哪些分量实际上与任务相关？直观上，我们希望对 \(\mathbf{s}_t\) 进行分解，得到任务相关部分 \(\mathbf{z}_t\) 和任务无关部分 \(\mathbf{u}_t\)，使得只有 \(\mathbf{z}_t\) 通过动作影响任务。

#### 4.1 任务相关表示的可辨识性

我们证明，在简单稀疏正则化下，无需额外信息即可实现这种分解。具体来说，考虑一个预训练的表示模型，该模型学习到 \(\mathbf{s}_t\) 的近似。然后，我们在下游任务数据上微调该模型，同时添加一个惩罚项，鼓励 \(\mathbf{s}_t\) 中只有少数分量与任务相关。形式化地，令 \(\hat{\mathbf{s}}_t = (\hat{\mathbf{z}}_t, \hat{\mathbf{u}}_t)\) 是模型对潜在状态的估计，其中 \(\hat{\mathbf{z}}_t\) 被假定为任务相关部分。我们最小化
\[
\mathcal{L}_{\text{task}} + \lambda \|\hat{\mathbf{z}}_t\|_1,
\]
其中 \(\mathcal{L}_{\text{task}}\) 是任务损失，\(\lambda\) 是正则化强度。

**定理 2.** 假设真实生成过程满足：（i）与任务相关的潜在变量数量远小于无关变量的数量；（ii）任务损失是 \(\mathbf{z}_t\) 的严格凸函数；（iii）无关变量 \(\mathbf{u}_t\) 与任务损失无关。那么，当数据充分且 \(\lambda\) 选择适当时，最小化上述目标函数可唯一恢复 \(\mathbf{z}_t\) 及一个可逆变换，从而 \(\hat{\mathbf{z}}_t\) 与 \(\mathbf{z}_t\) 一一对应（除了置换和分量级缩放）。特别是，这保证任务相关表示是可辨识的。

证明依赖于稀疏性。由于无关变量不影响任务损失，任何包含它们的分量都会增加 \(\ell_1\) 惩罚而不减少损失，因此会被优化算法推到零。同时，任务损失确保相关分量被保留。富集假设保证了无关变量的维度足够高，使得稀疏性成为必要的识别条件。

#### 4.2 与现有工作的关系

我们的结果与现有文献中的几个关键方向有关。首先，非线性 ICA 通常依赖于辅助变量或特定的混合函数结构。相反，我们完全在无辅助信息的情况下实现了识别，但代价是只恢复部分（任务相关）表示。其次，因果表示学习中的识别通常需要干预。我们回避了这一要求，用稀疏性假设代替，该假设在任务设定中自然成立。第三，子空间分解方法（如内容-风格分解）假设预先指定的分解结构。我们不需要这种结构；任务相关性与无关变量之间的划分是从数据中自动学习的。

### 5 讨论与未来工作

我们已经证明，在完全非参数设定下，时间-任务结构和任务相关潜在表示均可识别。这些结果共同建立了从通用模型转向专用模型的理论基础。然而，仍存在几个重要的开放方向。

首先，我们的片段同质性假设虽然合理，但在某些应用中可能不成立。将识别扩展到片段内异质的情况是未来的重要工作。其次，我们当前的结果假设任务的数量 \(M\) 已知或可通过模型选择确定。自动确定任务数量的方法是值得探索的方向。第三，我们的学习算法依赖于稀疏正则化，其理论保证基于凸性和稀疏性假设。在实践中，使用更复杂的正则化或替代优化策略可能带来实际优势。

从更广泛的角度看，这项工作将识别性从完整的潜在系统扩展到任务相关的子集，为构建更高效、更稳健的智能系统提供了可能性。我们相信，这种通用模型到专用模型的范式是迈向通用人工智能关键能力——选择性表示——的一步。

### 致谢

我们感谢匿名审稿人提供的宝贵意见。本工作得到了 XXX 的支持。

### 参考文献

[此处列出参考文献，但已从原文中移除以避免复制大量已出版内容]
从通用到专长表示

相似文章

从通用到专有表示

通用型智能体必须记住什么？

MoE专业化中的几何不对称性：功能去相关与表示重叠

扩散模型作为通用分割学习器

特征抽奖？概念涌现的分岔理论

提交意见反馈