markov-decision-process

标签

Cards List
#markov-decision-process

长期决策问题中基于成对偏好的强化学习

arXiv cs.LG · 昨天 缓存

本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。

0 人收藏 0 人点赞
#markov-decision-process

小型RL控制器与大型语言模型:RL引导的测试时自适应采样

Hugging Face Daily Papers · 2天前 缓存

本文将大型语言模型的自适应采样建模为马尔可夫决策过程,并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本,从而实现了更好的权衡。

0 人收藏 0 人点赞
#markov-decision-process

面向异构大语言模型多智能体系统的迭代式批评与路由控制器

arXiv cs.AI · 2026-05-12 缓存

本文介绍了一种用于多智能体大语言模型系统的批评与路由控制器,将协调过程建模为序贯决策问题。该方法利用策略梯度优化控制器以实现迭代优化,在表现优于基线方法的同时,降低了对顶级模型的依赖。

0 人收藏 0 人点赞
#markov-decision-process

什么是 MDP?我们该如何求解?

ML at Berkeley · 2021-02-23 缓存

本文通过一个关于大学生日常决策的教学示例,解释了马尔可夫决策过程(MDP)的基础知识,这是深度强化学习中的核心框架。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈