markov-decision-process

#markov-decision-process

从被动生成到主动调查：一种主动的学术同行评审智能体

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出ProReviewer，一种基于大语言模型的学术同行评审智能体，其被形式化为马尔可夫决策过程。该智能体通过维护结构化的评审日志主动探究论文，在多个质量维度上优于现有方法。

0 人收藏 0 人点赞

#markov-decision-process

arXiv cs.LG ↗ · 2026-06-02 缓存

本文介绍了Markov decision contest，这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性，并提出了一种高效学习的近似算法。

0 人收藏 0 人点赞

#markov-decision-process

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文将大型语言模型的自适应采样建模为马尔可夫决策过程，并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本，从而实现了更好的权衡。

0 人收藏 0 人点赞

#markov-decision-process

arXiv cs.AI ↗ · 2026-05-12 缓存

本文介绍了一种用于多智能体大语言模型系统的批评与路由控制器，将协调过程建模为序贯决策问题。该方法利用策略梯度优化控制器以实现迭代优化，在表现优于基线方法的同时，降低了对顶级模型的依赖。

0 人收藏 0 人点赞

#markov-decision-process

ML at Berkeley ↗ · 2021-02-23 缓存

本文通过一个关于大学生日常决策的教学示例，解释了马尔可夫决策过程（MDP）的基础知识，这是深度强化学习中的核心框架。

0 人收藏 0 人点赞