theoretical-guarantees

#theoretical-guarantees

长期决策问题中基于成对偏好的强化学习

arXiv cs.LG ↗ · 5天前缓存

本文介绍了Markov decision contest，这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性，并提出了一种高效学习的近似算法。

0 人收藏 0 人点赞

#theoretical-guarantees

arXiv cs.CL ↗ · 2026-05-15 缓存

本文首次系统研究了大型语言扩散模型（LLDMs）的不确定性量化（UQ），提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号，并表明LLDMs能够在实现快速推理的同时，提供可靠的幻觉检测，与基于采样的基线方法相比，计算开销降低高达100倍。

0 人收藏 0 人点赞

#theoretical-guarantees

arXiv cs.LG ↗ · 2026-05-14 缓存

本文首次建立了使用小批量SGD和带有相关噪声的DP-SGD训练的Kolmogorov-Arnold网络的总体风险界，推动了在隐私敏感领域对KAN的理论理解。

0 人收藏 0 人点赞