标签
本文提出分层优势加权行为克隆(HABC),用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作(VLA)策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离,显著提高了接触密集型双手操作任务的成功率。