KL Zero: KL散度直觉游戏

Hacker News Top 工具

摘要

KL Zero是一款交互式浏览器游戏,玩家在其中绘制概率分布以匹配目标KL散度值,帮助用户直观理解机器学习中KL散度的概念。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/02 04:47

# KL Zero 来源:https://klzero.sarna.dev/ **绘制到目标 KL 值。** KL 散度衡量的是:如果实际用的是你画的绿色分布 Q,那么原本的蓝色分布 P 看起来会多么令人意外。 画出任意概率分布(总和接近 1),让它的 KL 散度尽可能接近目标数值。 你只有 10 秒。开始! **KL 0.1** 几乎相同 **KL 1** 形状偏移 **KL 10** 相距甚远

相似文章

重新思考温度在大语言模型蒸馏中的作用

arXiv cs.LG

本文重新审视了温度在大语言模型蒸馏中的作用,揭示出温度不对称地更有利于正向KL散度而非反向KL,使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。

G-Zero:从零数据开始的无界生成自博弈方法

Hugging Face Daily Papers

本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。