clipping

标签

Cards List
#clipping

@johnschulman2: PPO在LLM时代迎来了第二波,原因超出了原始论文的预期——重要性比率目标会修正由数值误差、异步训练和前向传播噪声引起的偏差——而裁剪目标通过一种我们当初发表时未知的机制影响熵(DAPO, https://arxiv.org/abs/2509.26114)

X AI KOLs Following · 昨天 缓存

本文揭示了PPO和GRPO中的裁剪机制在LLM的RLVR中引入了熵偏差:低裁剪增加熵,高裁剪减少熵。作者证明,即使在随机奖励的情况下,标准裁剪也会降低熵,并表明调整低裁剪可以防止熵塌陷并促进探索。

0 人收藏 0 人点赞
#clipping

MuCon: Clipped Muon Updates for LLM Training

arXiv cs.LG · 2026-05-27 缓存

本文介绍了MuCon,一种用于大语言模型训练的裁剪Muon优化器,它应用奇异值裁剪而非完全极化,保留较小的奇异值而仅裁剪最大的奇异值。它探索了避免全SVD的近似方法,包括极坐标/绝对值公式和有理牛顿滤波器,并指出了阈值附近的数值挑战。

0 人收藏 0 人点赞
#clipping

剪辑如何吞噬互联网

The Verge · 2026-05-26 缓存

The Vergecast 本期节目探讨了社交媒体信息流如何被剪辑内容和算法蛮力所主导,同时还评测了新款 Fitbit Air 健身追踪器,并讨论了智能眼镜这一产品类别。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈