标签
介绍了流反转引导(FRS)方法,通过反向并重新去噪一个流匹配通用策略,将语义推理产生的粗略动作细化为精确的机器人动作,从而改进零样本控制并支持策略学习。
本文介绍了行为克隆(Behavioral Cloning),这是一种模仿学习技术,用于从专家演示中训练策略。文章讨论了其在最大似然估计中的理论基础,以及其在 AlphaGo 等历史应用中的使用情况。