on-policy-learning

标签

Cards List
#on-policy-learning

OPRD:在策略表示蒸馏

Hugging Face Daily Papers · 5天前

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

0 人收藏 0 人点赞
#on-policy-learning

利用推理框架进行训练:面向复杂推理的在策略框架自蒸馏

arXiv cs.CL · 2026-05-12 缓存

本文介绍了在策略框架自蒸馏(OPHSD),该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能,使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。

0 人收藏 0 人点赞
#on-policy-learning

基于评分细则的在策略蒸馏

Hugging Face Daily Papers · 2026-05-08 缓存

本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。

0 人收藏 0 人点赞
#on-policy-learning

D-OPSD:面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

Hugging Face Daily Papers · 2026-05-06 缓存

本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。

0 人收藏 0 人点赞
#on-policy-learning

如何微调推理模型?一个教师-学生协作框架用于合成学生一致的SFT数据

Hugging Face Daily Papers · 2026-03-23 缓存

本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈