用于条件生成压缩感知的主动学习
摘要
本文提出了一个条件生成压缩感知框架,证明了基于提示词条件化模型在稳定恢复方面的界限,并通过在 Stable Diffusion 上的实验展示了提示词匹配如何影响采样分布。
arXiv:2605.05435v1 宣布类型:新
摘要:生成压缩感知利用预训练生成器的输出范围作为非线性模型,从而从有限测量中恢复结构化信号。我们研究了该问题的条件版本,即利用基于提示词条件化的生成模型,从子采样的傅里叶测量中恢复图像。我们的框架将条件化的两个角色区分开来:用于设计采样分布的提示词,以及用于定义恢复模型的提示词。针对 ReLU 和 Lipschitz 条件生成器,我们证明了稳定的恢复界限,表明提示词匹配的 Christoffel 采样保留了与现有近乎最优的生成压缩感知理论相同的 Christoffel 复杂度常数,而提示词不匹配则会带来明确的兼容性惩罚。在 Stable Diffusion 上的实验表明,提示词能够有意义地重塑 Christoffel 采样分布并影响图像恢复。总体而言,我们的结果表明,提示词应被视为设计变量,对感知、逼近和恢复具有不同的影响。
查看缓存全文
缓存时间: 2026/05/08 07:21
# 条件生成压缩感知的主动学习 来源:https://arxiv.org/html/2605.05435 Alexander DeLise 科学计算系 数学系 佛罗里达州立大学 [email protected] Nick Dexter 科学计算系 佛罗里达州立大学 [email protected] ###### 摘要 生成压缩感知使用预训练生成器的值域作为非线性模型,从有限的测量值中恢复结构化信号。我们研究了该问题的条件版本,利用提示词条件化生成模型,从下采样的傅里叶测量值中恢复图像。我们的框架区分了条件化的两个角色:用于设计采样分布的提示词,以及用于定义恢复模型的提示词。对于 ReLU 和 Lipschitz 条件生成器,我们证明了稳定的恢复界限,表明提示词匹配的克里斯托费尔采样(Christoffel sampling)保留了与现有次优生成压缩感知理论相同的克里斯托费尔复杂度常数,而提示词不匹配则会产生明确的兼容性惩罚。基于 Stable Diffusion 的实验表明,提示词能够有意义地重塑克里斯托费尔采样分布并影响图像恢复。总体而言,我们的结果表明,提示词应被视为设计变量,对感知、近似和恢复具有不同的影响。 ## 1 引言 压缩感知 [19](https://arxiv.org/html/2605.05435#bib.bib1) 是一种流行的信号处理技术,用于从未采样的观测值 $\mathbf{y} \in \mathbb{C}^m$ 中恢复信号 $\mathbf{f}^* \in \mathbb{C}^n$,其中 $m \ll n$,观测值通过某个正向过程获得: $$ \mathbf{y} = \mathbf{A}\mathbf{f}^* + \mathbf{e}, \quad (1) $$ 在科学和工程领域有着广泛的应用 [12](https://arxiv.org/html/2605.05435#bib.bib12), [36](https://arxiv.org/html/2605.05435#bib.bib14), [20](https://arxiv.org/html/2605.05435#bib.bib13), [53](https://arxiv.org/html/2605.05435#bib.bib15), [24](https://arxiv.org/html/2605.05435#bib.bib16)。这里 $\mathbf{A} \in \mathbb{C}^{m \times n}$ 是采样矩阵(可能包含随机条目),$\mathbf{e} \in \mathbb{C}^m$ 是加性噪声向量。方程 (1) 中的逆问题是欠定的。因此,人们通常假设某些应用驱动的结构,通常是 $\mathbf{f}^*$ 在某些域中的稀疏性,以引出唯一解 [9](https://arxiv.org/html/2605.05435#bib.bib7), [10](https://arxiv.org/html/2605.05435#bib.bib2), [50](https://arxiv.org/html/2605.05435#bib.bib5), [23](https://arxiv.org/html/2605.05435#bib.bib6), [41](https://arxiv.org/html/2605.05435#bib.bib9), [51](https://arxiv.org/html/2605.05435#bib.bib8), [14](https://arxiv.org/html/2605.05435#bib.bib11), [3](https://arxiv.org/html/2605.05435#bib.bib10),前提是采样矩阵 $\mathbf{A}$ 满足某些条件,如限制性等距性质 [19](https://arxiv.org/html/2605.05435#bib.bib1), [10](https://arxiv.org/html/2605.05435#bib.bib2)。 另一方面,生成压缩感知不再假设稀疏性,而是要求 $\mathbf{f}^*$ 接近生成模型 $G: \mathbb{R}^k \to \mathbb{R}^n$ 的值域,该模型最初由 [8](https://arxiv.org/html/2605.05435#bib.bib4) 引入。在这种机制下,当具有高斯条目的采样矩阵 $\mathbf{A}$ 满足所谓的集合限制特征值条件(Set-Restricted Eigenvalue Condition)时,$\mathbf{f}^*$ 可以以高概率被恢复。随后的几项研究调查了生成压缩感知中信号恢复的上下误差界 [28](https://arxiv.org/html/2605.05435#bib.bib36), [29](https://arxiv.org/html/2605.05435#bib.bib35), [35](https://arxiv.org/html/2605.05435#bib.bib37),以及存在异常数据 [27](https://arxiv.org/html/2605.05435#bib.bib38) 或使用非线性采样算子 [13](https://arxiv.org/html/2605.05435#bib.bib39) 时的恢复保证。 虽然这些结果建立了基于稀疏性恢复的有力替代方案,但它们依赖于关于测量过程的假设,而这些假设在实践中往往无法满足。首先,高斯测量可能不切实际:在许多实际应用中,感知由硬件约束决定,对应于结构化的、通常是下采样的酉变换,例如 MRI 中的离散傅里叶变换 [36](https://arxiv.org/html/2605.05435#bib.bib14), [37](https://arxiv.org/html/2605.05435#bib.bib48)。其次,即使限制为这种物理上可实现的算子,采样模式的选择仍然至关重要。常见的策略,如高斯或均匀下采样,是无信息的,因为它们未能利用被测信号类的结构,可能导致次优性能 [2](https://arxiv.org/html/2605.05435#bib.bib52), [33](https://arxiv.org/html/2605.05435#bib.bib53), [43](https://arxiv.org/html/2605.05435#bib.bib54)。 几项研究提出了利用底层生成模型几何结构的生成压缩感知采样策略,这一过程称为*主动学习*。例如,[1](https://arxiv.org/html/2605.05435#bib.bib3) 开发了基于*广义克里斯托费尔函数*的机器学习克里斯托费尔采样(CS4ML)框架,而 [7](https://arxiv.org/html/2605.05435#bib.bib23), [6](https://arxiv.org/html/2605.05435#bib.bib24), [42](https://arxiv.org/html/2605.05435#bib.bib51) 使用*局部一致性*来设计采样分布,将更多的质量放在对区分模型类中的信号最具信息量的测量坐标上。此类主动学习方法与广泛研究的*杠杆得分采样*密切相关,在主动学习、标准回归和成像 [15](https://arxiv.org/html/2605.05435#bib.bib26), [18](https://arxiv.org/html/2605.05435#bib.bib27), [40](https://arxiv.org/html/2605.05435#bib.bib28), [21](https://arxiv.org/html/2605.05435#bib.bib29), [5](https://arxiv.org/html/2605.05435#bib.bib30) 以及各种压缩感知的最佳采样策略 [3](https://arxiv.org/html/2605.05435#bib.bib10), [33](https://arxiv.org/html/2605.05435#bib.bib53), [43](https://arxiv.org/html/2605.05435#bib.bib54), [11](https://arxiv.org/html/2605.05435#bib.bib42), [34](https://arxiv.org/html/2605.05435#bib.bib43), [44](https://arxiv.org/html/2605.05435#bib.bib44) 中均有应用。 尽管取得了这些进展,现有的生成压缩感知工作大多依赖于无条件生成先验,从而忽略了在获取或推理时可能可用的辅助信息。在许多现实场景中,此类信息可以极大地缩小合理信号的集合。例如,在医学成像中,模态、解剖结构或患者元数据可以改善重建 [16](https://arxiv.org/html/2605.05435#bib.bib25);同样,在自然图像重建中,主题、场景类别、采集协议或其他元数据可以缩小相关信号类并提高重建质量 [17](https://arxiv.org/html/2605.05435#bib.bib46), [30](https://arxiv.org/html/2605.05435#bib.bib47)。提示词驱动或其他条件生成器提供了一种自然的机制,通过将恢复类引导至与可用上下文兼容的信号,而不是要求单个无条件模型来表示所有可能的信号类型,从而整合这些信息。条件化还可以改善感知本身。如果相关的条件信号类更窄,则可以设计支持在更具信息量的测量坐标上的采样分布,从而降低稳定恢复的样本复杂度。 然而,条件化引入了无条件设置中不存在的交互作用:用于采样的提示词无需与用于恢复的提示词匹配,当 $\mathbf{f}^*$ 位于生成器的值域中时,两者也无需包含真实信号的类匹配。因此,过强或不对齐的条件化可能会使重建偏向先验而偏离观测测量值。这激发了*条件生成压缩感知*作为标准框架的扩展,其中采样设计和恢复保证明确依赖于条件信号类之间的交互作用。了解这些交互作用如何影响稳定恢复和重建是本文的核心问题。 ### 1.1 贡献 我们将 [1](https://arxiv.org/html/2605.05435#bib.bib3) 中的克里斯托费尔采样主动学习视角与 [8](https://arxiv.org/html/2605.05435#bib.bib4), [7](https://arxiv.org/html/2605.05435#bib.bib23), [6](https://arxiv.org/html/2605.05435#bib.bib24) 中的生成压缩感知论证相结合,以研究下采样傅里叶测量下的提示词条件化信号恢复。由此产生的理论描述了采样、恢复和真实信号提示词之间的交互作用如何决定稳定恢复所需的样本复杂度以及由此产生的重建误差。我们的贡献总结如下: - 我们为下采样傅里叶测量下的生成压缩感知制定了一个提示词条件化的克里斯托费尔采样框架,包含三个条件化提示词:真实信号提示词 $c_*$、恢复提示词 $c_r$ 和采样提示词 $c_s$。 - 我们识别了一个单一的提示词兼容性因子 $\Lambda(c_1, c_2, c_3)$,并表明在 $(c_r, c_r, c_s)$ 处评估它控制了稳定重建的样本复杂度,而在 $(c_*, c_r, c_s)$ 处评估它控制了恢复中的残差误差。 - 我们在条件生成器的 ReLU 和 Lipschitz 假设下推导了明确的样本复杂度结果,并将这些与无认知信号恢复误差界相结合。 - 我们通过一系列实验对理论框架进行了实证测试,证明提示词条件化系统地影响了诱导的采样分布和重建性能。 ## 2 主动学习问题设置 我们遵循 [1](https://arxiv.org/html/2605.05435#bib.bib3) 中建立的机器学习克里斯托费尔采样(CS4ML)的一般框架来进行我们的主动学习机制,然而我们将结果专门针对下采样傅里叶测量。关于一般 CS4ML 框架的完整描述,请参阅附录 A (https://arxiv.org/html/2605.05435#A1)。 ### 2.1 设置与提示词条件化模型类 设 $\mathbb{X} = \mathbb{R}^n$,称为*对象空间*,配备欧几里得范数 $\|\cdot\|_2$。设 $\mathbf{F} \in \mathbb{C}^{n \times n}$ 表示酉离散傅里叶变换,设 $D = \{1, \dots, n\}$,并设 $\mathbf{P}_i$ 为第 $i$ 个傅里叶系数的行选择矩阵。对于信号 $\mathbf{f} \in \mathbb{X}$,定义 $$ L_i(\mathbf{f}) = \mathbf{P}_i \mathbf{F} \mathbf{f} \in \mathbb{C}, \quad i \in D $$ 为*采样算子*,它提取 $\mathbf{f}$ 的第 $i$ 个傅里叶系数。我们假设采样算子的完整家族 $\{L_i\}_{i \in D}$ 在 $\mathbb{X}$ 上是非退化的,即存在常数 $0 < \alpha \le \beta < \infty$ 使得 $$ \alpha \|\mathbf{f}\|_2^2 \le \sum_{i \in D} \|L_i(\mathbf{f})\|^2 \le \beta \|\mathbf{f}\|_2^2, \quad \mathbf{f} \in \mathbb{X}. $$ 在我们的设置中,由于离散傅里叶变换 $\mathbf{F}$ 的酉性,这以 $\alpha = \beta = 1$ 成立。稍后,在引入下采样后,我们将需要这一性质的采样类似物,称为*经验非退化性*,但我们将这一概念推迟到第 3 节讨论。这些性质确保测量映射在 $\mathbb{X}$ 上是单射且保范的,因此信号之间的差异反映在测量中,从而实现稳定且可区分的恢复。 接下来,设 $G: \mathbb{R}^k \times \mathcal{C} \to \mathbb{X}$ 为一个条件生成模型,它接受潜在向量 $\mathbf{z} \in \mathbb{R}^k$ 和条件 $c \in \mathcal{C}$ 作为输入,并输出信号 $\mathbf{f} = G(\mathbf{z}, c) \in \mathbb{X}$。这里,$\mathcal{C}$ 表示一个抽象的条件空间,可以代表标签、元数据、测量值或文本嵌入,尽管在本工作中,我们专门针对条件由文本提示词给出的情况。在随后的分析中,我们进一步假设潜在向量输入 $\mathbf{z}$ 具有有界范数,并设 $B_2^k(R) = \{\mathbf{z} \in \mathbb{R}^k : \|\mathbf{z}\|_2 \le R\}$。许多生成模型(例如基于扩散的 [49](https://arxiv.org/html/2605.05435#bib.bib17), [25](https://arxiv.org/html/2605.05435#bib.bib19), [47](https://arxiv.org/html/2605.05435#bib.bib20),GANs [22](https://arxiv.org/html/2605.05435#bib.bib31), [45](https://arxiv.org/html/2605.05435#bib.bib32),以及 VAEs [32](https://arxiv.org/html/2605.05435#bib.bib22))假设 $\mathbf{z}$ 的条目是高斯分布,因此对于这些模型,此假设仅排除了实际应用中指数级不可能的少数输入 [8](https://arxiv.org/html/2605.05435#bib.bib4)。 最后,定义 $$ \mathbb{F}_c = \{G(\mathbf{z}, c) : \mathbf{z} \in B_2^k(R)\} \subseteq \mathbb{X}, $$ 称为*近似空间*,为条件于提示词 $c$ 的生成模型的值域。在实践中,我们在整个分析中区分三种不同的提示词。首先,我们考虑信号提示词 $c_*$,当我们的感兴趣量 $\mathbf{f}^*$ 明确位于生成模型的值域中时出现,即 $\mathbf{f}^* \in \mathbb{F}_{c_*}$。一般来说,$c_*$ 可能是未知的,或者 $\mathbf{f}^*$ 可能分布外,在这种情况下,我们也考虑恢复提示词 $c_r$,它定义使用 $G$ 重建 $\mathbf{f}^*$ 的候选信号集,即使用 $\mathbb{F}_{c_r}$ 中的信号。最后,我们考虑用于构建我们的采样分布 $\mu_{c_s}$ 的采样提示词 $c_s$,我们在下一小节中介绍。正如我们将看到的,不匹配 $c_* \neq c_r$ 是*信号-恢复不匹配*,并作为近似误差进入,而 $c_s \neq c_r$ 是*采样-恢复不匹配*,并通过稳定信号恢复所需的样本复杂度进入。同样,不匹配 $c_* \neq c_s$ 是*信号-采样不匹配*,意味着测量是使用可能不反映所获取真实信号类型的提示词信息设计的,在我们的分析中,这表现为由此产生的采样定律在多大程度上捕获了恢复相关的目标信号特征。 ### 2.2 克里斯托费尔采样与提示词兼容性 主动学习的一个核心组成部分是根据优化的采样策略原则性地选择测量值,这可以在数据收集之前确定,或者随着观测值的获取而自适应更新,这与固定或均匀采样形成对比。在我们的设置中,这对应于选择要查询采样算子 $L_i$ 的索引 $i \in D$。目标是分配测量值,使其最具信息量...
相似文章
线性约束下的条件扩散:Langevin 混合与信息论保证
本文分析了预训练扩散模型在线性逆问题上的零样本条件采样,提供了信息论保证并提出了一种投影 Langevin 初始化方法。
通过自适应校正调度在生成采样中强制执行约束
本研究论文提出了一种用于在生成采样中强制执行硬约束的自适应校正调度方法,证明与末端或逐步投影方法相比,该方法能够改善成本-精度边界。
基于解码器的生成模型的定量分析
本文提出使用退火重要性采样(Annealed Importance Sampling)来评估基于解码器的生成模型(VAE、GAN等)的对数似然,解决了难以计算似然估计的问题。作者验证了该方法的有效性,并提供了评估代码来分析模型性能、过拟合情况和模式覆盖度。
损失不足:对比表示学习中的采样条件与归纳偏置
本文发展了一个测度论框架,分析对比学习何时恢复有意义的潜在几何结构,引入了正对采样的'多样性条件'和一个支持修正的InfoNCE变体。实验表明,采样多样性与架构归纳偏置在对比表示学习中存在关键交互。
Conf-Gen: 面向生成模型的共形不确定性量化
介绍Conf-Gen,一个将共形风险控制适配到生成模型的框架,为大语言模型、图像生成器和AI智能体提供形式化的不确定性保证。