@turingbook: 还是亲历者来说说历史吧。中国最早的大模型研究基本上与智源研究院有关。第一个正式发布的大模型是智源研究院支持清华刘知远团队的清源CPM(2020年11月,26亿参数) https://zhuanlan.zhihu.com/p/2981380…
摘要
文章回顾了中国早期大模型的发展历史,指出智源研究院支持了最早的清源CPM(2020年)和悟道1.0(2021年),并纠正了关于华为盘古是国内首个大模型的说法。
查看缓存全文
缓存时间: 2026/06/17 05:49
还是亲历者来说说历史吧。中国最早的大模型研究基本上与智源研究院有关。第一个正式发布的大模型是智源研究院支持清华刘知远团队的清源CPM(2020年11月,26亿参数) https://zhuanlan.zhihu.com/p/298138008 ,后来演变为OpenBMB,现在还是最好的端侧模型之一。然后就是智源研究院牵头,唐杰老师挂帅的悟道1.0模型系列(2021年3月),其中就包括GLM的最早期版本(GLM论文通信作者是唐杰和杨植麟)。 其他比较早期的工作,百度是Ernie 3.0(2021年7月);阿里M6(2021年3月)是与唐杰团队合作的(林俊旸是第一作者,唐和当时在阿里的杨红霞是通信作者),后来演变为Qwen。华为盘古有两个版本,一个是华为云田奇与杨植麟团队合作,一个出自诺亚方舟实验室,但都没有持续。 可能有遗漏的,大家可以补充。
Xudong Han (@Xudong07452910): 晚上刷到余承东在华为发布会上说盘古是国内第一个大模型,我还真去翻了一下时间线。
PanGu-α 论文是 2021 年 4 月 26 日发的,标题和摘要里已经写了 Large-scale Pretrained Language Models,最高 200B 参数,而百度的 ERNIE 3.0 是 2021 年 7 月 5 日,时间上确实晚了一步。
相似文章
@seclink: 最近有个华为新闻发布会 ,盘古大模型要重新出山了. 6月20日开源权重,估计 claude 和 gpt 都要靠边站, 世界第一的大模型即将诞生?
华为新闻发布会宣布盘古大模型将重新出山,计划于6月20日开源权重,号称可能超越Claude和GPT成为世界第一。
@Fenng: 微信团队自研的 WeLM 大模型,应该已经进入了国产大模型第一梯队。
微信团队自研的WeLM大模型被认为已进入国产大模型第一梯队。
@RookieRicardoR: 国产模型再次突破,比肩 Claude 4.6,Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max,说几点真实感受。 昨晚 API 上线第一时间就充了值,选了三个题目(见视频)来测试 Qwen3.7-Max 的前端能…
用户测试了Qwen3.7-Max,认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型,推理能力显著提升,且迭代速度月更,已成为国产第一梯队。
@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……
阿里巴巴发布了通义千问 3.7 Max,一款专为智能体时代设计的旗舰编码模型。该模型在长周期自主执行、前端生成和3D场景构建上表现突出,多项基准测试中与顶尖闭源模型持平甚至超越,是接近前沿的中国模型。
@cuisitekp: 9B 的模型,把比它大好几倍的模型干下去了。 Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人,放出一篇新论文叫 Tmax,自称是目前最强的开源「终端 agent」RL 训练配方。 成绩:一个 9B 模型在 Terminal-Be…
Ai2和华盛顿大学发布论文Tmax,提出目前最强的开源终端智能体RL训练配方。仅用9B参数模型在Terminal-Bench 2.0上击败更大模型,关键在于低成本生成大量可验证训练数据,而非模型规模或算法。