finite-sample-guarantees

标签

Cards List
#finite-sample-guarantees

学习交接:在接口约束下可证明收敛的工作流学习

arXiv cs.AI · 2026-05-20 缓存

本文将在多智能体LLM流水线中的工作流学习形式化为一个接口约束的半马尔可夫决策过程(IC-SMDP),并提出IC-ICQQ,一种异步分布式Q学习算法,具有有限样本界,可分解误差源,为分布式部分可观测性下的神经Q学习提供了首个有限样本保证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈