标签
Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环,在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果,并开源了相关工件以供进一步检验。
Recursive 发布了其自动化 AI 研究系统的早期成果,在固定预算语言模型训练、小模型训练速度以及 GPU 内核优化方面达到了业界领先水平,并开源了相关制品。
本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。