kl-divergence

标签

Cards List
#kl-divergence

量化推理模型自以为需要更长的思考,实则不然

arXiv cs.LG · 4天前 缓存

本文揭示,对推理模型进行激进的训练后量化会导致过度思考错误增加,即模型在中间步骤得出正确答案却未能作为最终答案输出。对过度思考标记施加简单的logit惩罚,可将思维链长度减少12-23%,同时提升准确率,尤其对量化模型效果显著。

0 人收藏 0 人点赞
#kl-divergence

KL Zero: KL散度直觉游戏

Hacker News Top · 2026-05-30 缓存

KL Zero是一款交互式浏览器游戏,玩家在其中绘制概率分布以匹配目标KL散度值,帮助用户直观理解机器学习中KL散度的概念。

0 人收藏 0 人点赞
#kl-divergence

基于熵-KL散度的令牌掩码:一种用于大型语言模型选择性微调的新方法

arXiv cs.AI · 2026-05-29 缓存

提出了 EKSFT,一种面向大型语言模型的选择性微调方法,该方法掩码具有高熵或与参考模型高KL散度的令牌,在注入任务知识的同时保留预训练分布。在数学推理基准上的实验表明,它优于标准SFT,并改进了后续的RL微调。

0 人收藏 0 人点赞
#kl-divergence

信任区域Q伴随匹配

Hugging Face Daily Papers · 2026-05-26 缓存

信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。

0 人收藏 0 人点赞
#kl-divergence

同策略蒸馏(5分钟阅读)

TLDR AI · 2026-05-26

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。

0 人收藏 0 人点赞
#kl-divergence

@maximelabonne: 这真是太棒了!动态微调(DFT)根据模型自身的 token 概率重新加权 SFT 损失,这产生了一个……

X AI KOLs Following · 2026-05-20 缓存

动态微调(DFT)被介绍为一种方法,它利用模型自身的 token 概率重新加权 SFT 损失,形成一个反馈循环,并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑,但赞赏这一尝试。

0 人收藏 0 人点赞
#kl-divergence

衡量古德哈特定律

OpenAI Blog · 2022-04-13 缓存

OpenAI 的研究通过最佳 N 采样(best-of-n sampling)对古德哈特定律进行了形式化分析,提供了高效的估计器,用于衡量代理目标与实际目标的匹配程度,并通过 KL 散度量化优化努力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈