多样性字典学习
摘要
本文提出“多样性字典学习”,证明在无需强假设的情况下,仅凭观测数据即可识别潜在变量间的关键集合论关系,实现部分甚至完全可识别性,且仅需极小的归纳偏置。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - 多元字典学习
来源:https://huggingface.co/papers/2604.17568
摘要
在无需强假设的情况下,通过多元字典学习识别集合论关系与结构,即可实现潜变量的恢复。
仅给定观测数据(https://huggingface.co/papers?q=observational%20data)X = g(Z),其中潜变量(https://huggingface.co/papers?q=latent%20variables)Z 与生成过程 g 均未知,若无额外假设,恢复 Z 是病态问题。既有方法常假设线性关系,或依赖辅助监督与函数约束。然而,这类假设在实践中几乎无法验证,即使轻微违背也会导致理论保证失效,使我们对如何可靠理解隐藏世界充满不确定性。
为使可识别性(https://huggingface.co/papers?q=identifiability)在现实场景落地,我们采取互补视角:在无法获得完全可识别性的一般设定下,仍能保证恢复什么?又能普遍采用何种归纳偏置?我们提出“多元字典学习”(https://huggingface.co/papers?q=diverse%20dictionary%20learning)问题来形式化这一视角。具体而言,我们证明:即便不做强假设,与任意观测相连的潜变量之间的交集、补集与对称差,以及潜变量到观测的依赖结构,在适当的不确定性下仍可被识别。这些集合论结果可通过集合代数组合,构建隐藏世界的结构化且本质的视图,如“属加种差”定义。当存在足够的结构多样性(https://huggingface.co/papers?q=structural%20diversity)时,它们进一步意味着所有潜变量(https://huggingface.co/papers?q=latent%20variables)的完全可识别性。值得注意的是,所有可识别性收益均源于估计过程中一个简单的归纳偏置(https://huggingface.co/papers?q=inductive%20bias),该偏置可轻松集成到大多数模型中。我们在合成与真实数据上验证了理论并展示了该偏置的收益。
查看 arXiv 页面(https://arxiv.org/abs/2604.17568)
查看 PDF(https://arxiv.org/pdf/2604.17568)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.17568)
在智能体中获取该论文:
hf papers read 2604.17568
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.17568 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17568 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.17568 即可在此页面显示链接。
包含该论文的收藏 0
暂无收藏包含该论文
新建收藏 并将该论文加入,即可在此页面显示链接。
相似文章
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
MOSAIC:通过稀疏可加可识别因果学习在科学时间序列中进行模块发现
本文介绍了 MOSAIC,这是一种用于科学时间序列中模块发现的方法,它将因果表征学习与稀疏可加可识别因果学习相结合。其目标是在无需事后对齐的情况下,恢复可解释的潜在变量及其关联观测值,并在分子动力学和气候数据等领域进行了验证。
超越神经网络的数据驱动变分基学习:一种用于自适应基发现的非神经网络框架
本文介绍了数据驱动变分基学习(DVBL),这是一种非神经网络框架,通过变分优化直接从数据中学习基函数,与神经网络相比,具有可解释性和数学透明性。
通道级语义扰动:面向多样训练范式的不可学习示例
本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。
令牌统计揭示多轮大语言模型交互中的对话漂移
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。