标签
本文将在多智能体LLM流水线中的工作流学习形式化为一个接口约束的半马尔可夫决策过程(IC-SMDP),并提出IC-ICQQ,一种异步分布式Q学习算法,具有有限样本界,可分解误差源,为分布式部分可观测性下的神经Q学习提供了首个有限样本保证。