标签
OPID 是一个框架,它从完成的在线策略轨迹中提取密集的词元级监督信号,用于语言智能体的强化学习,通过分层技能(情节级和步骤级)来提高样本效率和鲁棒性。
OPID提出了一种同策略技能蒸馏框架,从完成的轨迹中提取密集后见监督,将基于结果的强化学习与词元级自蒸馏相结合,以提高语言智能体在多轮任务上的训练效率和性能。