critique-distillation

标签

Cards List
#critique-distillation

弱批评者造就强学习者:面向可扩展监督的在线策略批评蒸馏

arXiv cs.AI · 2026-06-02 缓存

提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈