self-distillation

#self-distillation

反思奖励监督：Rubric-Conditioned Self-Distillation

arXiv cs.AI ↗ · 6天前缓存

本文提出Rubric-Conditioned Self-Distillation (RCSD)框架，该框架利用细粒度评分标准在自蒸馏过程中提供token级别的指导，相比GRPO和OPSD等标量奖励方法提升了推理性能。

0 人收藏 0 人点赞

#self-distillation

向自我未来学习：面向扩散大语言模型的自策略知识蒸馏

arXiv cs.CL ↗ · 2026-06-17 缓存

介绍了 d-OPSD，这是首个面向扩散大语言模型的自策略知识蒸馏框架，采用后缀条件和步骤级别监督，在推理基准上优于 RLVR 和 SFT 基线。

0 人收藏 0 人点赞

#self-distillation

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

本文提出了轨迹增强策略优化（TAPO），该方法利用模型自身正确和错误的展开构建微反思修正轨迹，以提高大型语言模型的推理能力，在数学基准测试上优于标准自蒸馏方法。

0 人收藏 0 人点赞

#self-distillation

先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

本文介绍了ViGOS，一种多模态在策略自蒸馏方法，通过让学生模型先产生视觉描述再进行推理来解耦感知与推理，减少对捷径的依赖并改善图像接地行为。

0 人收藏 0 人点赞

#self-distillation

信任正确的教师：面向GUI定位的质量感知自蒸馏

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

提出面向GUI定位的质量感知自蒸馏方法，通过正确性感知门控和概率缩放改进坐标-标记教师信号，以提升视觉语言模型性能。

0 人收藏 0 人点赞

#self-distillation

@agarwl_: 自蒸馏方法目前对思维模型无效 https://arxiv.org/abs/2603.24472 https://openreview.net/forum?i…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

本文研究了为何自蒸馏会降低大语言模型的推理能力，发现它会抑制认知性言语化（不确定性表达），导致数学推理任务中的性能下降高达40%。

0 人收藏 0 人点赞

#self-distillation

无漂移扩散策略优化

arXiv cs.LG ↗ · 2026-06-15 缓存

DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化，保持紧凑的ELBO，防止双重漂移现象，在语言和连续控制任务中均能获得更高奖励。

0 人收藏 0 人点赞

#self-distillation

@sheriyuo: Qwen Tongyi Lab提出RLCSD，一个关于同策略自蒸馏的简单但重要的批评。他们的关键观察是…

X AI KOLs Timeline ↗ · 2026-06-11 缓存

Qwen Tongyi Lab提出RLCSD以解决同策略自蒸馏中的风格漂移问题，该问题中学习信号集中在风格标记上，而非任务关键推理标记。他们的方法使用对比监督来聚焦于任务相关标记，在推理基准测试中取得了相较先前方法一致的改进。

0 人收藏 0 人点赞

#self-distillation

HERO: 从环境观察中进行事后增强反思的智能体自蒸馏

arXiv cs.AI ↗ · 2026-06-11 缓存

HERO 提出了一种事后增强的自蒸馏框架，利用环境观察作为局部对齐的反馈，以提升多轮智能体的能力，在 TauBench 和 WebShop 上优于现有方法，尤其在有限的轮次预算下表现突出。

0 人收藏 0 人点赞

#self-distillation

基于视觉反馈的自我蒸馏策略优化：连接代码与视觉制品

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍了Visual-SDPO，一种自我蒸馏策略优化框架，该框架利用渲染后的视觉反馈作为特权上下文来训练代码生成型大语言模型，在图表、用户界面和幻灯片生成基准测试中提升了视觉制品的质量。

0 人收藏 0 人点赞

#self-distillation

ParaBridge：弥合语音语言模型中副语言感知与对话行为之间的鸿沟

arXiv cs.CL ↗ · 2026-06-10 缓存

ParaBridge是一种基于策略的自蒸馏方法，旨在弥合语音语言模型中副语言感知与对话行为之间的差距，在不依赖外部奖励的情况下显著提升安全性和共情能力。

0 人收藏 0 人点赞

#self-distillation

世界模型自蒸馏：训练世界模型解决通用任务

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

一个可扩展的框架结合了自蒸馏和强化学习，将任务解决能力从视觉语言模型迁移到视频扩散模型，无需标注的任务-视频数据。

0 人收藏 0 人点赞

#self-distillation

反馈对齐在自蒸馏中的作用

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

本文研究了语言模型中自蒸馏的上下文设计，发现逐步对齐的批评反馈显著优于二元奖励或参考解条件，因为它只针对错误词元，同时保留正确行为。

0 人收藏 0 人点赞

#self-distillation

PBSD：用于长时域信用分配的特权贝叶斯自蒸馏

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

PBSD提出了一种贝叶斯自蒸馏方法，将稀疏的最终奖励转化为经过校准的回合级信用信号，用于长时域智能体任务，从而改进策略学习与泛化能力。

0 人收藏 0 人点赞

#self-distillation

自蒸馏策略梯度

arXiv cs.LG ↗ · 2026-06-04 缓存

SDPG（自蒸馏策略梯度）是一种面向大语言模型的全新强化学习训练框架，结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化，旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文，使同一模型同时充当学生和教师，在稳定性和性能上均优于RLVR及自蒸馏基线方法。

0 人收藏 0 人点赞

#self-distillation

@dwarkesh_sp: 最近遇到了 @srush_nlp，他给我即兴讲解了一下定向在线自蒸馏的工作原理……

X AI KOLs Following ↗ · 2026-06-04 缓存

Dwarkesh Patel 分享了 Sasha Rush 对定向在线自蒸馏的解释，其中提示标记被插入到轨迹中，以降低特定模型错误的权重，而无需新的 rollout。

0 人收藏 0 人点赞

#self-distillation

基于丰富反馈的分布式DAgger强化学习

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

介绍DistIL，一种从丰富反馈中进行强化学习的方法，保证策略单调改进，在科学推理、编程和数学推理上优于现有方法。

0 人收藏 0 人点赞

#self-distillation

世界模型与语言模型相遇：论具体推理与抽象推理的互补性

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文提出特权未来在策略自蒸馏（PF-OPSD）方法，用于受控具体推理，结合世界模型的视觉模拟与语言模型的抽象推理，在两个新基准上提升预测准确性和鲁棒性。

0 人收藏 0 人点赞

#self-distillation

CAST：面向GRPO的非特权裁剪非对称自教学与优势翻转

arXiv cs.AI ↗ · 2026-06-02 缓存

本文提出CAST，一种非特权裁剪非对称自教学方法，通过提供密集的令牌级引导并解决零方差组问题，增强了基于GRPO的可验证奖励强化学习，在数学推理上展现了改进。

0 人收藏 0 人点赞

#self-distillation

通过动态Token选择实现分布对齐自蒸馏的鲁棒推理

arXiv cs.CL ↗ · 2026-06-02 缓存

提出了分布对齐自蒸馏（DASD），该方法在自蒸馏过程中动态过滤Token，以保留有益的逻辑修正，同时抑制分布不对齐的风格噪声，从而在数学、代码和常识推理基准上提升鲁棒推理能力。

0 人收藏 0 人点赞

self-distillation

提交意见反馈