KL Zero: KL散度直觉游戏
摘要
KL Zero是一款交互式浏览器游戏,玩家在其中绘制概率分布以匹配目标KL散度值,帮助用户直观理解机器学习中KL散度的概念。
暂无内容
查看缓存全文
缓存时间: 2026/06/02 04:47
# KL Zero
来源:https://klzero.sarna.dev/
**绘制到目标 KL 值。**
KL 散度衡量的是:如果实际用的是你画的绿色分布 Q,那么原本的蓝色分布 P 看起来会多么令人意外。
画出任意概率分布(总和接近 1),让它的 KL 散度尽可能接近目标数值。
你只有 10 秒。开始!
**KL 0.1**
几乎相同
**KL 1**
形状偏移
**KL 10**
相距甚远
相似文章
基于熵-KL散度的令牌掩码:一种用于大型语言模型选择性微调的新方法
提出了 EKSFT,一种面向大型语言模型的选择性微调方法,该方法掩码具有高熵或与参考模型高KL散度的令牌,在注入任务知识的同时保留预训练分布。在数学推理基准上的实验表明,它优于标准SFT,并改进了后续的RL微调。
重新思考温度在大语言模型蒸馏中的作用
本文重新审视了温度在大语言模型蒸馏中的作用,揭示出温度不对称地更有利于正向KL散度而非反向KL,使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。
信念空间动力学中允许的学习率步长的闭式上界
本文利用KL散度和Bregman几何,推导了信念空间动力学中允许的学习率步长的闭式上界,重点关注交叉熵分类任务。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
G-Zero:从零数据开始的无界生成自博弈方法
本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。