@oliviscusAI:OpenAI 联合创始人刚刚发布了他的个人指南,教你从头训练大语言模型。它叫 llm.c。无需繁琐设置。只…
摘要
OpenAI 联合创始人 Andrej Karpathy 发布了 llm.c,这是一份开源指南,教你如何从头训练大语言模型。代码简洁,可在任何硬件上运行,包括 CPU 和 MacBook,并且比标准方法快 7%。
OpenAI 的联合创始人刚刚发布了他的个人指南,教你从头训练大语言模型。
它叫 llm.c。无需繁琐设置。只有原始代码,几乎可在任何设备上运行。
→ 可在普通 CPU 或 GPU 上运行
→ 甚至能在 MacBook 上运行
→ 比标准方法快 7%
与训练 GPT-2 和 GPT-3 相同的系统。
100% 开源。
查看缓存全文
缓存时间: 2026/06/25 11:17
OpenAI联合创始人刚刚发布了个人指南,教你如何从零开始训练大语言模型。
项目名为 llm.c。无需复杂配置,只有能在几乎所有设备上运行的原始代码。
→ 可在普通CPU或GPU上运行 → 甚至能在MacBook上运行 → 比标准方法快7%
这套系统与训练GPT-2和GPT-3的底层架构相同。
100% 开源。
相似文章
@heygurisingh: 过去训练参数量达数十亿的LLM需要花费1000万美元以上。有人开源了一个仓库,现在可以在单张GPU上完成。
一个名为train-llm-from-scratch的开源仓库使得在单张GPU上训练十亿级参数的LLM成为可能,它提供了一个从原始文本到推理的可配置流水线,包括数据集流式加载和检查点保存,采用MIT许可证。
@DanKornas: 每个层都有自己的笔记本,从零开始构建LLM就更容易了。EveryonesLLM是一个基于Google Colab的教程…
EveryonesLLM是一个开源的基于Google Colab的教程仓库,用于从零开始构建nanoGPT风格的LLM,包含逐步章节,涵盖数据加载、嵌入、注意力机制、训练和指令调优。
@RohOnChain: 刚刚与一位正在构建下一代前沿大语言模型的MIT计算机科学毕业生交谈。他告诉我这场由OpenAI研究员关于……的讲座
一条推文推荐了OpenAI研究员关于大语言模型构建方法的讲座,声称这场讲座教给一位MIT计算机科学毕业生的知识比他的整个学位还多。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。
@phosphenq:Andrej Karpathy 这段 2 小时视频,比今年你刷过的所有 AI 教程加起来还管用
OpenAI 联合创始人 Andrej Karpathy 发布了一段 2 小时教学视频,承诺让观众大幅提升大语言模型的实战能力。