标签
本文针对离散扩散模型提出了'支持先于频率'假说,认为模型先学习支持(即合法序列),再优化支持内的频率。对小噪声反向核的理论分析以及在掩码语言扩散模型上的实验支持了这一论断。
本文证明,基于RoPE的注意力机制在长上下文中无法区分词元位置和身份,解释了LLM在宣称的上下文长度内失败的原因。实验验证表明,针对检索优化的模型在简单列表任务上表现困难。
本文介绍了 COSMOS,这是一个模型无关的个性化联邦学习框架,采用了聚类服务器模型和仅通过伪标签进行通信的机制。论文提供了理论分析,展示了指数级的个性化风险收缩,并证明了该方法在异构环境下的性能优于现有的基线方法。
本文提供了理论分析,解释了为什么在扩散模型中,确定性的 DDIM 采样器比随机性的 DDPM 采样器产生更多的幻觉,将其归因于在逆向动力学过程中卡在模态插值区域。
本文分析了基于模型的强化学习中的“想象训练”范式,推导了最优样本分配策略,并描述了动态模型和奖励模型的误差如何影响策略回报。
本文通过将速度雅可比矩阵分解为应变和涡度,分析了流形匹配中的数值积分误差,证明应变驱动了误差的指数级增长,而涡度仅产生线性贡献。作者提出了一种加权雅可比正则化器,侧重于抑制应变,从而降低积分误差并提高了 CIFAR-10 上的 FID。
本文建立了生成对抗网络 (GAN)、逆强化学习 (IRL) 和基于能量的模型 (EBM) 之间的数学等价性,证明了某些 IRL 方法等价于具有可评估生成器密度的 GAN。这项工作连接了三个研究社区,促进知识转移,有助于开发更稳定和可扩展的算法。