@turingbook: 还是亲历者来说说历史吧。中国最早的大模型研究基本上与智源研究院有关。第一个正式发布的大模型是智源研究院支持清华刘知远团队的清源CPM(2020年11月,26亿参数) https://zhuanlan.zhihu.com/p/2981380…

X AI KOLs Timeline 新闻

摘要

文章回顾了中国早期大模型的发展历史,指出智源研究院支持了最早的清源CPM(2020年)和悟道1.0(2021年),并纠正了关于华为盘古是国内首个大模型的说法。

还是亲历者来说说历史吧。中国最早的大模型研究基本上与智源研究院有关。第一个正式发布的大模型是智源研究院支持清华刘知远团队的清源CPM(2020年11月,26亿参数) https://zhuanlan.zhihu.com/p/298138008 ,后来演变为OpenBMB,现在还是最好的端侧模型之一。然后就是智源研究院牵头,唐杰老师挂帅的悟道1.0模型系列(2021年3月),其中就包括GLM的最早期版本(GLM论文通信作者是唐杰和杨植麟)。 其他比较早期的工作,百度是Ernie 3.0(2021年7月);阿里M6(2021年3月)是与唐杰团队合作的(林俊旸是第一作者,唐和当时在阿里的杨红霞是通信作者),后来演变为Qwen。华为盘古有两个版本,一个是华为云田奇与杨植麟团队合作,一个出自诺亚方舟实验室,但都没有持续。 可能有遗漏的,大家可以补充。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:49

还是亲历者来说说历史吧。中国最早的大模型研究基本上与智源研究院有关。第一个正式发布的大模型是智源研究院支持清华刘知远团队的清源CPM(2020年11月,26亿参数) https://zhuanlan.zhihu.com/p/298138008 ,后来演变为OpenBMB,现在还是最好的端侧模型之一。然后就是智源研究院牵头,唐杰老师挂帅的悟道1.0模型系列(2021年3月),其中就包括GLM的最早期版本(GLM论文通信作者是唐杰和杨植麟)。 其他比较早期的工作,百度是Ernie 3.0(2021年7月);阿里M6(2021年3月)是与唐杰团队合作的(林俊旸是第一作者,唐和当时在阿里的杨红霞是通信作者),后来演变为Qwen。华为盘古有两个版本,一个是华为云田奇与杨植麟团队合作,一个出自诺亚方舟实验室,但都没有持续。 可能有遗漏的,大家可以补充。

Xudong Han (@Xudong07452910): 晚上刷到余承东在华为发布会上说盘古是国内第一个大模型,我还真去翻了一下时间线。

PanGu-α 论文是 2021 年 4 月 26 日发的,标题和摘要里已经写了 Large-scale Pretrained Language Models,最高 200B 参数,而百度的 ERNIE 3.0 是 2021 年 7 月 5 日,时间上确实晚了一步。

相似文章

@cuisitekp: 9B 的模型,把比它大好几倍的模型干下去了。 Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人,放出一篇新论文叫 Tmax,自称是目前最强的开源「终端 agent」RL 训练配方。 成绩:一个 9B 模型在 Terminal-Be…

X AI KOLs Timeline

Ai2和华盛顿大学发布论文Tmax,提出目前最强的开源终端智能体RL训练配方。仅用9B参数模型在Terminal-Bench 2.0上击败更大模型,关键在于低成本生成大量可验证训练数据,而非模型规模或算法。