为什么缺乏新的100B-120B模型?
摘要
分析AI模型尺寸趋势,指出100-120B参数范围存在空白,近期发布主要聚焦于较小(25-35B)或较大(200B+)的模型。
GPT-OSS-120B 是该系列的首个模型,之后有 GLM-4.5-Air、Nemotron-3-Super、Qwen3.5-122B、Mistral-Small-4-119B。然而,所有这些模型至少已有3个月历史(GPT-OSS-120B 已10个月),而所有最新发布要么是25B-35B(Gemma4, Qwen3.6),要么是200B+(Step 3.5/3.7 Flash, DeepSeek-V4-Flash, MiniMax-M3, Nemotron-3-Ultra)。~120B MoE系列是否像70B/80B系列一样“消亡”了,还是说2026年下半年可能会有新发布?
相似文章
一个4b模型现在在网络研究上击败30b模型,原因不在于规模
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
我们迫切需要一款80-160B的模型。统一内存设备市场需要更多模型。
作者认为,当前迫切需要80-160B参数范围的AI模型,以支持使用统一内存设备的用户(例如高内存的Apple/AMD系统),因为最近的模型对于他们的硬件来说要么太小,要么太大。
@LottoLabs: 对优秀小模型的需求非常大,看看下载量最高的Qwen模型吧,全部<9B
观察到对小AI模型的高需求,体现在Qwen系列9B参数以下模型的下载量上。
@ChrisGPotts:我们理所当然地认为更大的模型比小的更好,但为什么会这样?我们的新论文,由Jing Hua领导……
本文探讨了为什么更大的模型性能优于较小的模型,通过形式化分析和实验将其归因于数据引发的神经资源竞争。
AMD 和 Intel,现在轮到你们发布自己的模型了
NVIDIA 发布了拥有 550B 参数的模型(Nemotron-3-Ultra-550B),引发评论称 AMD 和 Intel 也应效仿发布自己的 AI 模型,因为模型开发已逐渐成为硬件公司的标配。