kl-divergence

#kl-divergence

量化推理模型自以为需要更长的思考，实则不然

arXiv cs.LG ↗ · 4天前缓存

本文揭示，对推理模型进行激进的训练后量化会导致过度思考错误增加，即模型在中间步骤得出正确答案却未能作为最终答案输出。对过度思考标记施加简单的logit惩罚，可将思维链长度减少12-23%，同时提升准确率，尤其对量化模型效果显著。

0 人收藏 0 人点赞

#kl-divergence

Hacker News Top ↗ · 2026-05-30 缓存

KL Zero是一款交互式浏览器游戏，玩家在其中绘制概率分布以匹配目标KL散度值，帮助用户直观理解机器学习中KL散度的概念。

0 人收藏 0 人点赞

#kl-divergence

arXiv cs.AI ↗ · 2026-05-29 缓存

提出了 EKSFT，一种面向大型语言模型的选择性微调方法，该方法掩码具有高熵或与参考模型高KL散度的令牌，在注入任务知识的同时保留预训练分布。在数学推理基准上的实验表明，它优于标准SFT，并改进了后续的RL微调。

0 人收藏 0 人点赞

#kl-divergence

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

信任区域Q伴随匹配（TRQAM）通过投影对偶下降自适应控制路径空间KL散度，解决了离线策略强化学习中的不稳定性问题，从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法，在离线强化学习中达到68%的成功率，而最强基线仅为46%。

0 人收藏 0 人点赞

#kl-divergence

TLDR AI ↗ · 2026-05-26

本文引入同策略蒸馏，通过在教师提供的token级KL正则化下，在学生自身轨迹上训练学生模型，解决训练-推理分布不匹配问题，统一了前向KL、反向KL和JSD损失，其中反向KL更适用于较小的学生模型。

0 人收藏 0 人点赞

#kl-divergence

X AI KOLs Following ↗ · 2026-05-20 缓存

动态微调（DFT）被介绍为一种方法，它利用模型自身的 token 概率重新加权 SFT 损失，形成一个反馈循环，并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑，但赞赏这一尝试。

0 人收藏 0 人点赞

#kl-divergence

OpenAI Blog ↗ · 2022-04-13 缓存

OpenAI 的研究通过最佳 N 采样（best-of-n sampling）对古德哈特定律进行了形式化分析，提供了高效的估计器，用于衡量代理目标与实际目标的匹配程度，并通过 KL 散度量化优化努力。

0 人收藏 0 人点赞