hierarchical-skills

#hierarchical-skills

OPID：面向智能体强化学习的在线策略技能蒸馏

arXiv cs.CL ↗ · 3天前缓存

OPID 是一个框架，它从完成的在线策略轨迹中提取密集的词元级监督信号，用于语言智能体的强化学习，通过分层技能（情节级和步骤级）来提高样本效率和鲁棒性。

0 人收藏 0 人点赞

#hierarchical-skills

Hugging Face Daily Papers ↗ · 4天前缓存

OPID提出了一种同策略技能蒸馏框架，从完成的轨迹中提取密集后见监督，将基于结果的强化学习与词元级自蒸馏相结合，以提高语言智能体在多轮任务上的训练效率和性能。

0 人收藏 0 人点赞