language-model-training

#language-model-training

分散损失抵消小型语言模型中的嵌入凝聚

Hacker News Top ↗ · 2026-07-03 缓存

本文观察到小型语言模型中的词元嵌入会凝聚成一个狭窄的锥形子空间，这种现象称为嵌入凝聚，并提出一种分散损失来抵消它，从而改善泛化能力。

0 人收藏 0 人点赞

#language-model-training

TLDR AI ↗ · 2026-06-12 缓存

Recursive 发布了一个自动化AI研究系统，在三个基准测试中取得了最先进的结果：固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环，并开源了其运行中的产物。

0 人收藏 0 人点赞

#language-model-training

X AI KOLs Following ↗ · 2026-06-11 缓存

Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环，在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果，并开源了相关工件以供进一步检验。

0 人收藏 0 人点赞

#language-model-training

X AI KOLs Timeline ↗ · 2026-06-11 缓存

Recursive 发布了其自动化 AI 研究系统的早期成果，在固定预算语言模型训练、小模型训练速度以及 GPU 内核优化方面达到了业界领先水平，并开源了相关制品。

0 人收藏 0 人点赞

#language-model-training

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

S2L-PO框架利用小型模型作为自然探索器，增强GRPO中的策略多样性，以训练大型语言模型。它实现了更快的收敛，并在降低rollout计算量的同时，提高了数学推理基准的准确性。

0 人收藏 0 人点赞

#language-model-training

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

本文通过进行受控的字节级预训练实验，研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素，如训练吞吐量以及将子词边界作为语言先验的整合。

0 人收藏 0 人点赞