compute-optimal

标签

Cards List
#compute-optimal

@lilianweng: 一篇超级迟到的(3年以上?)关于扩展定律的帖子。计算很昂贵。扩展定律是一种帮助我们推理…

X AI KOLs Timeline · 4天前 缓存

Lilian Weng的博客文章全面概述了深度学习中的扩展定律,涵盖了它们的推导、计算最优分配以及Kaplan等人与Chinchilla之间的争论。

0 人收藏 0 人点赞
#compute-optimal

数据过滤的苦涩教训(1分钟阅读)

TLDR AI · 2026-05-21 缓存

本文研究了大模型预训练中的数据过滤,发现在高计算、数据稀缺的情况下,过滤可能并非必要,甚至可能有害;充分训练的大模型能从名义上的低质量数据中受益。

1 人收藏 1 人点赞
#compute-optimal

Compute Optimal Tokenization (2分钟阅读)

TLDR AI · 2026-05-13 缓存

本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。

0 人收藏 0 人点赞
#compute-optimal

数据受限训练的规定性缩放定律

Hugging Face Daily Papers · 2026-05-02 缓存

一种考虑数据重复效应的修正缩放定律,为数据受限场景提供了计算最优的训练策略,表明超出某一界限后,进一步重复会适得其反,计算资源应更明智地用于模型容量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈