self-teaching

#self-teaching

@lateinteraction: 你可能错过了：阅读关于Pedagogical RL的博客，与其盲目地从你的LLM中采样，不如利用用于RLVR的标签！学习…

X AI KOLs Following ↗ · 2026-05-15 缓存

介绍了Pedagogical RL，一种利用特权信息指导成功轨迹采样以增强LLM推理的方法，相比GRPO和在线策略蒸馏，实现了高达40%的相对增益。

0 人收藏 0 人点赞

#self-teaching

X AI KOLs Following ↗ · 2026-05-14 缓存

介绍了教学RL，一种范式，其中训练特权自我教师以生成正确且易于遵循的轨迹，表明这是一个相对简单的RL问题。

0 人收藏 0 人点赞