on-policy-learning

#on-policy-learning

视觉语言导航中用于语义探索的路径级事后指令

arXiv cs.AI ↗ · 2026-07-03 缓存

介绍 Φ-Nav，一种统一的在线策略框架，利用事后推理从探索轨迹中合成生成路径级指令，弥合视觉语言导航中的语义监督差距，并在 R2R-CE 和 RxR-CE 基准测试上以更少的专家演示取得了竞争性结果。

0 人收藏 0 人点赞

#on-policy-learning

Hugging Face Daily Papers ↗ · 2026-06-04

OPRD提出了一种新的知识蒸馏方法，该方法在策略部署期间跨层对齐学生和教师的隐藏状态，消除了来自词空间KL估计的采样方差。实验表明，OPRD在数学推理基准（AIME 2024/2025、AIMO）上优于输出空间基线，同时速度快1.44倍，内存使用减少54%。

0 人收藏 0 人点赞

#on-policy-learning

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了在策略框架自蒸馏（OPHSD），该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能，使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。

0 人收藏 0 人点赞

#on-policy-learning

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文提出了 ROPD，一种基于评分细则的在策略蒸馏框架，相比传统的基于 logits 的方法，该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits，实现了黑盒场景下的模型对齐。

0 人收藏 0 人点赞

#on-policy-learning

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

本文介绍了 D-OPSD，一种用于步骤蒸馏扩散模型的新型训练范式，能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下，学习新概念或新风格。

0 人收藏 0 人点赞

#on-policy-learning

Hugging Face Daily Papers ↗ · 2026-03-23 缓存

本文介绍了TESSY，一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌（来自教师）和风格令牌（来自学生），生成符合在线策略的SFT数据，从而解决了使用离线策略教师数据时的灾难性遗忘问题。

0 人收藏 0 人点赞