标签
本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。
本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。
本文首次建立了使用小批量SGD和带有相关噪声的DP-SGD训练的Kolmogorov-Arnold网络的总体风险界,推动了在隐私敏感领域对KAN的理论理解。