标签
本文研究了具有不可观测状态和可能受限决策周期的马尔可夫匪徒中的遗憾最小化问题,引入了一种称为自退化马尔可夫匪徒的推广。作者提出了UCB-NOM算法,该算法实现了接近对数的遗憾,并给出了不依赖于状态数量的界限。
本文介绍了重复策略遗憾(RP-Regret),一种用于自适应对手重复博弈中遗憾最小化的博弈论度量,并提出了三种算法来最小化它,表明这样做可以导致如猎鹿博弈中的合作均衡。
杰夫·贝佐斯讲述了他是如何利用“遗憾最小化框架”决定辞去D.E. Shaw的工作并创办亚马逊的,将避免未来遗憾置于对失败的恐惧之上。