theoretical-guarantees

标签

Cards List
#theoretical-guarantees

长期决策问题中基于成对偏好的强化学习

arXiv cs.LG · 5天前 缓存

本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。

0 人收藏 0 人点赞
#theoretical-guarantees

大型语言扩散模型的不确定性量化

arXiv cs.CL · 2026-05-15 缓存

本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。

0 人收藏 0 人点赞
#theoretical-guarantees

通过相关噪声DP-SGD训练的Kolmogorov-Arnold网络的总体风险界

arXiv cs.LG · 2026-05-14 缓存

本文首次建立了使用小批量SGD和带有相关噪声的DP-SGD训练的Kolmogorov-Arnold网络的总体风险界,推动了在隐私敏感领域对KAN的理论理解。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈