多样性字典学习

Hugging Face Daily Papers 2026/04/19 00:00 论文

摘要

本文提出“多样性字典学习”，证明在无需强假设的情况下，仅凭观测数据即可识别潜在变量间的关键集合论关系，实现部分甚至完全可识别性，且仅需极小的归纳偏置。

仅给定观测数据 X = g(Z)，其中潜在变量 Z 与生成过程 g 均未知，若不附加假设，恢复 Z 本质上是病态问题。现有方法常假定线性关系，或依赖辅助监督与函数约束。然而，这类假设在实践中几乎无法验证，且理论保证在轻微违背时即告失效，导致对隐藏世界的可靠理解充满不确定性。为使可识别性在现实场景落地，我们采取互补视角：在无法完全识别的普适设定下，究竟还能保证恢复什么？又有哪些偏置可被视为“通用”？为此，我们提出“多样性字典学习”问题以形式化该视角。具体而言，我们证明：即使不做强假设，潜在变量与任意观测之间的交集、补集、对称差，以及潜在–观测依赖结构，仍可在适当不确定性范围内被识别。这些集合论结果可通过集合代数组合，构建隐藏世界的结构化且本质的视图，例如“属–种差”定义。当结构多样性足够时，它们进一步蕴含所有潜在变量的完全可识别性。值得注意的是，所有可识别性收益仅源于估计阶段引入的一条简单归纳偏置，该偏置可轻松嵌入绝大多数模型。我们在合成与真实数据上验证了理论并展示了该偏置的优势。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - 多元字典学习

来源：https://huggingface.co/papers/2604.17568

摘要

在无需强假设的情况下，通过多元字典学习识别集合论关系与结构，即可实现潜变量的恢复。

仅给定观测数据（https://huggingface.co/papers?q=observational%20data）X = g(Z)，其中潜变量（https://huggingface.co/papers?q=latent%20variables）Z 与生成过程 g 均未知，若无额外假设，恢复 Z 是病态问题。既有方法常假设线性关系，或依赖辅助监督与函数约束。然而，这类假设在实践中几乎无法验证，即使轻微违背也会导致理论保证失效，使我们对如何可靠理解隐藏世界充满不确定性。

为使可识别性（https://huggingface.co/papers?q=identifiability）在现实场景落地，我们采取互补视角：在无法获得完全可识别性的一般设定下，仍能保证恢复什么？又能普遍采用何种归纳偏置？我们提出“多元字典学习”（https://huggingface.co/papers?q=diverse%20dictionary%20learning）问题来形式化这一视角。具体而言，我们证明：即便不做强假设，与任意观测相连的潜变量之间的交集、补集与对称差，以及潜变量到观测的依赖结构，在适当的不确定性下仍可被识别。这些集合论结果可通过集合代数组合，构建隐藏世界的结构化且本质的视图，如“属加种差”定义。当存在足够的结构多样性（https://huggingface.co/papers?q=structural%20diversity）时，它们进一步意味着所有潜变量（https://huggingface.co/papers?q=latent%20variables）的完全可识别性。值得注意的是，所有可识别性收益均源于估计过程中一个简单的归纳偏置（https://huggingface.co/papers?q=inductive%20bias），该偏置可轻松集成到大多数模型中。我们在合成与真实数据上验证了理论并展示了该偏置的收益。

查看 arXiv 页面（https://arxiv.org/abs/2604.17568）
查看 PDF（https://arxiv.org/pdf/2604.17568）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.17568）

在智能体中获取该论文：

hf papers read 2604.17568

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17568 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17568 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17568 即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含该论文

新建收藏并将该论文加入，即可在此页面显示链接。

多样性字典学习

论文页面 - 多元字典学习

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

大语言模型预训练的数据混合：综述与展望

MOSAIC：通过稀疏可加可识别因果学习在科学时间序列中进行模块发现

超越神经网络的数据驱动变分基学习：一种用于自适应基发现的非神经网络框架

通道级语义扰动：面向多样训练范式的不可学习示例

令牌统计揭示多轮大语言模型交互中的对话漂移

提交意见反馈