compute-optimal

#compute-optimal

@lilianweng: 一篇超级迟到的（3年以上？）关于扩展定律的帖子。计算很昂贵。扩展定律是一种帮助我们推理…

X AI KOLs Timeline ↗ · 4天前缓存

Lilian Weng的博客文章全面概述了深度学习中的扩展定律，涵盖了它们的推导、计算最优分配以及Kaplan等人与Chinchilla之间的争论。

0 人收藏 0 人点赞

#compute-optimal

TLDR AI ↗ · 2026-05-21 缓存

本文研究了大模型预训练中的数据过滤，发现在高计算、数据稀缺的情况下，过滤可能并非必要，甚至可能有害；充分训练的大模型能从名义上的低质量数据中受益。

1 人收藏 1 人点赞

#compute-optimal

TLDR AI ↗ · 2026-05-13 缓存

本文通过训练近1300个模型，系统推导了压缩感知的神经缩放定律，证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律，为跨多样语言和模态的计算高效训练提供了新框架。

0 人收藏 0 人点赞

#compute-optimal

Hugging Face Daily Papers ↗ · 2026-05-02 缓存

一种考虑数据重复效应的修正缩放定律，为数据受限场景提供了计算最优的训练策略，表明超出某一界限后，进一步重复会适得其反，计算资源应更明智地用于模型容量。

0 人收藏 0 人点赞