标签
本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。
本文将大型语言模型的自适应采样建模为马尔可夫决策过程,并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本,从而实现了更好的权衡。
本文介绍了一种用于多智能体大语言模型系统的批评与路由控制器,将协调过程建模为序贯决策问题。该方法利用策略梯度优化控制器以实现迭代优化,在表现优于基线方法的同时,降低了对顶级模型的依赖。
本文通过一个关于大学生日常决策的教学示例,解释了马尔可夫决策过程(MDP)的基础知识,这是深度强化学习中的核心框架。