language-model-training

标签

Cards List
#language-model-training

@ChengleiSi:兴奋地分享我们在内部自动研究系统 @Recursive_SI 上取得的初步结果,我们在……上达到了SOTA

X AI KOLs Following · 20小时前 缓存

Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环,在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果,并开源了相关工件以供进一步检验。

0 人收藏 0 人点赞
#language-model-training

@Recursive_SI: https://x.com/Recursive_SI/status/2064980090702962699

X AI KOLs Timeline · 昨天 缓存

Recursive 发布了其自动化 AI 研究系统的早期成果,在固定预算语言模型训练、小模型训练速度以及 GPU 内核优化方面达到了业界领先水平,并开源了相关制品。

0 人收藏 0 人点赞
#language-model-training

通过字节级模拟解耦子词分词对语言模型训练的益处

Hugging Face Daily Papers · 2026-05-14 缓存

本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈