开放与封闭AI模型:2025-2026年差距如何缩小及未来走向

Reddit r/artificial 新闻

摘要

本文探讨了从2025年初到2026年中,开放与封闭AI模型之间的性能差距如何急剧缩小,以DeepSeek开放模型的发布及其后续市场影响为例。文章还讨论了中国实验室在推动开放前沿方面的作用及其对行业的影响。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/30 13:47

# 开源与闭源AI模型:2025-2026年差距如何消失及其未来走向 — abZ Global 来源:https://abzglobal.net/technology/open-vs-closed-ai-models-gap-2025-2026 2025年1月,一家大多数人从未听说过的中国实验室发布了一款开源模型,在一天之内让全球最有价值的芯片制造商的市值蒸发了约17%。十八个月后,问题不再是开源模型能否与美国大型实验室的闭源系统竞争。问题已变成它们落后多少个月,以及这个差距是否会完全消失。 本文探讨的就是这一轨迹:2025年初开源与闭源模型的起点,到2026年年中差距缩小了多少,以及证据表明下一步将走向何方。重点放在模型和基准测试上,而非政治因素,尽管政治因素完全无法忽视,因为开源前沿在很大程度上变成了一个中国故事。 先做一个精确的定义。大多数人称之为"开源"的模型实际上是"开放权重":训练好的模型被发布供下载和运行,但训练数据和代码并未公开。这种区别很重要,而且随着后面章节的阐述,它正变得越来越模糊。为便于阅读,本文互换使用"开源"和"开放权重",但请注意这个星号标注。 ## 起跑线:2025年初的格局 在现代AI时代的大部分时间里,人们普遍认为美国大型实验室拥有持久的领先优势。其推理基于基础设施:前沿模型需要巨大的算力,这些算力运行在先进芯片上,而出口管制正是为了将这些芯片以及由此带来的领先优势牢牢控制在美国一方。 然后,一个发布重新设定了讨论的焦点。2025年1月,中国实验室DeepSeek发布了一款开放权重的推理模型,采用宽松许可协议,其性能几乎与当时最好的闭源推理模型相当。它在大多数基准测试上与领先的美国推理模型持平,而使用成本却只有其几分之一,每个token的成本大约便宜27倍。这是自2019年以来,中国公司首次公开发布前沿级别的模型。 市场反应剧烈。消息传开当天,领先的AI芯片制造商股价下跌约17%至18%,其他几只AI相关股票也随之下跌。原因是人们担心,如果模型能够如此廉价地训练,那么对最昂贵硬件的需求可能并非如所有人想象的那样。到那个月底,该模型已超越最知名的美国聊天机器人,成为美国App Store下载量最高的免费应用。一位著名投资者称之为"斯普特尼克时刻"。 这不仅因为它并非横空出世而成为分水岭,更关键的是它证实了数据已经显示的趋势。最佳美国模型与最佳中国模型之间的性能差距一直在迅速缩小。在一个广泛使用的直接对决排行榜上,美国模型相对于最佳中国模型的领先优势已从2024年初的约9%缩小到2025年初的不到2%。而在标准基准测试上,2023年底时17到30个百分点的差距,到2024年底已缩小到个位数。 即使在起点也值得注意:开源前沿已经开始向中国倾斜。当几个月后美国大型开源模型问世时,它在许多基准测试上落后于中国的开源发布。故事不仅是开源追赶闭源,更是中国的开源模型在设定步伐。 ## 2026年年中:以月而非层级衡量的差距 快进到现在,在核心基准测试层面,趋同已经惊人地接近完成。 最常被引用的数字来自斯坦福大学的年度AI指数。截至2026年初,最佳美国模型与最佳中国模型之间的性能差距已经缩小到2.7%,而2023年年中时这个差距在17到32个百分点之间。这种近乎持平的状态是在美国AI投资额高出许多倍的情况下实现的。自2025年初以来,中美模型已多次轮流占据榜首位置。 不过,表达这种差距最有用的方式不是百分比,而是时间。研究机构Epoch AI发现,开放权重模型现在平均落后于最先进水平大约三个月,而2024年底时是接近一年。麻省理工学院的一项研究从另一个角度量化了这一趋势。开源模型在发布时能达到闭源模型约90%的性能,并且往往在大约13周内补齐剩余差距,而一年前是27周,同时运行成本低约87%。 当前领先的一批开源模型使这一趋势变得具体,而它们由中国实验室主导。DeepSeek的最新模型是一个混合专家系统,拥有1.6万亿总参数和百万token上下文窗口,是目前最大的开放权重模型,声称在编码方面与领先的闭源模型性能相当,但价格却大幅降低。一家名为智谱的实验室在6月以宽松许可协议发布了一款前沿级别的开源模型,而月之暗面大约在同一时间推出了一款专为编码构建的万亿参数开源模型。与此同时,阿里巴巴的Qwen系列下载量突破10亿次,超越美国大型开源模型,成为全球下载量最大的开源模型。 成本方面,差距不仅正在缩小,而且正在逆转。DeepSeek新模型中较便宜的一款,每百万输入token成本约14美分,每百万输出token成本约28美分,低于所有主要闭源服务商的低价层级。推理成本整体每年大约下降10倍。最初的里程碑式模型已经证明了这一点:它以大约前沿推理模型3%的成本达到了与其相当的水平。 但这种持平有局限性,而且很重要。美国仍然生产更多顶级模型,2025年大约有50到60个显著发布,而中国大约是35个。主要直接对决排行榜上的单最佳模型仍然是美国的闭源模型,以2.7%的微弱优势领先。而且领先的开源模型仍然是纯文本的,而闭源前沿已能处理图像、音频和视频;它们在最具挑战性的知识测试上也往往落后,DeepSeek自己也将其轨迹描述为落后前沿三到六个月。因此,对2026年年中诚实的总结是:在大多数基准测试上已迎头赶上,成本低得多,但在最前沿以及基准测试难以充分捕捉的方面,仍然落后。 ## 开放权重的星号标注 在对基准测试趋同过度解读之前,有两个注意事项值得牢记,因为它们不利于我们表面化地理解这些持平数字。 第一是"开放性"本身正在收窄。到2025年,只有不到40%的所谓"开源模型"满足基本的开源标准,而且,不透明的开放权重模型的下载量首次超过了真正的开源模型。许可协议日益严格,模型访问限制也更为普遍。这个类别正在商业化和碎片化,因此"开源"比其标签所暗示的要更不开放,而且愈发如此。 第二是基准测试的持平可能夸大了真实的持平。中国的开源实验室往往比美国的闭源同行更关注基准测试分数,部分原因在于,保持肉眼可见地接近前沿对融资和采用至关重要。而闭源模型通常比得分相似的开源模型更健壮、更通用,这是因为当前基准测试遗漏了一些难以量化的品质。一个在测试中打平的模型,在面对现实工作中混乱、不断变化的需求时,仍然可能表现更差。 这之上还有一个悖论。即使在能力趋同的同时,透明度却下降了:追踪模型开放度的主要指数从58下降到40,在训练数据、参数数量和算力方面的信息披露更少。模型正变得更有能力,同时也更难理解。 ## 未来走向:真正的争论 这才是真正内行人士存在分歧的地方,而分歧是故事最有趣的部分。存在两种可信的论断,它们指向相反的方向。 ### 开源将持续缩小的论断 第一种论断是,趋势线会持续下去,开源将吃掉市场的中间部分。 证据就是轨迹本身。开源落后的时间从12个月压缩到3个月用了两年,推理成本每年下降10倍,知识基准测试的差距实际上已经消失。以此类推,更便宜的开源模型明显足够好的任务范围正在不断扩大。对于大多数企业级工作,文档分析、客户分流、代码审查、结构化提取,仅凭成本和数据隐私方面的考虑,开源模型已经是理性的默认选择。 这里的框架是经典的颠覆性创新,Linux和Android模式:从更便宜开始,通过全球社区改进,让价值向上层迁移。一位经济学家估计,在质量差异无关紧要的地方,将需求从闭源重新分配到开源,每年可为全球AI经济节省约250亿美元。该论点认为,随着模型商品化,价值转移到在模型之上进行服务和构建,这被一位CEO概括为人力资本和token资本之间的划分,其中拥有学习循环的公司相对于那些仅仅租用智能的公司能叠加起优势。 这种论断最尖锐的版本认为,到大约2028年,当领先的闭源实验室需要展示真正的利润率时,"足够好"的线将上升得足够高,从而对其定价能力构成压力。 ### 闭源将重新领先的论断 第二种论断是,前沿不断向前奔跑,差距反而会扩大而非缩小。这个论点最引人注目的地方在于谁在提出它。 开源模型领域最受尊敬的研究人员之一认为,开源与闭源之间的差距更可能扩大而非缩小,因为顶级实验室的进步速度一如既往,而且他们的许多增益根本不被公共基准测试所捕捉。让开源模型得以快速追赶的机制——蒸馏——也变得越来越难。在新的编码智能体时代,有价值的成分是复杂的训练环境和提示词,这些比早期蒸馏所依赖的模型输出要容易隐藏得多。 还有一个前沿走向何方的问题。编码可以通过抓取公共代码仓库在很大程度上解决,但下一个有价值的领域,比如法律和医疗工作,存在于公共网络上没有的数据中,且更难复制,这有利于拥有资源和合作伙伴关系以触及这些数据的实验室。而实验室本身也在趋向于一种姿态。一个新兴的共识是,策略是:前沿之后的部分开源,最尖端的地方闭源。一家美国大型实验室推迟了其最大开源模型的发布,并暗示可能出于安全考虑,将其最有能力的系统保持闭源。如果最好的模型被刻意保留,那么已经发布的模型在基准测试上的持平能告诉你的信息就比表面看起来少。 还有一组数据使简单的趋同故事变得更加复杂。即使中国和开源模型正在逼近顶尖水平,2025年,三大前沿实验室与更广泛的AI初创公司之间的差距却在扩大,因为算力、专有数据和稀缺人才创造了资本无法迅速克服的结构性优势。顶端的趋同与下方一点的趋同并存。 ### 可能的结果 综合两种论断,最可能的形态不是一方获胜,而是形成一个稳定的双层结构。 一层是闭源前沿模型,用于最前沿:最困难的知识工作、要求最高的智能体系统、完善的多模态能力,以及面对不断变化的新问题的直接助手角色,在这些地方,那些难以量化的品质最为重要。另一层是开源前沿模型,越来越多由中国引领,对于大量且不断增长的实际工作来说,它们以极低的成本真正做到了出色。 事情已经发展到多远的迹象是,问题本身已经改变。它从"开源能否竞争"转变为"你何时应选择开源vs.闭源",大多数生产系统预计将根据任务、成本和延迟在两者之间路由。这种转变是对"进展如何"的真正回答:开源决定性地赢得了"它是一个严肃选项"的论证,但尚未赢得前沿。 在国家维度上,这里刻意保持轻描淡写,但有一个细微差别值得指出。至少有一位密切观察者预计,从2027年初开始,随着谷歌等公司的开源发布和其他努力获得关注,以及中国惊人的发布速度最终放缓,美国将在开源模型采用方面慢慢收复失地。但中国目前的开源采用领先优势是真实的,而那个本应阻止这一切发生的硬件故事也在松动:DeepSeek的最新模型据报道运行在中国国产芯片上,使其成为首批完全在美国硬件生态系统之外构建的前沿级模型之一。 ## 这对构建者意味着什么 对于任何实际选择模型的人来说,从数据中可以得出一些实际启示。 **扩大你的候选名单。** 能力已经充分趋同,以至于为每个任务都默认选择最昂贵的闭源模型现在是一个真正的选择而非显而易见的决定,而且从成本来看往往是错误的选择。受益的团队是在自己的工作上测试各种选项,而不是把排行榜当作购买决策的团队。 **按任务路由。** 新兴的最佳实践是:将闭源模型用于最前沿、最困难的推理、要求最高的智能体和多模态工作;将开源模型用于高容量、成本敏感、受隐私约束的中间地带,在这些地方它们已经足够好且便宜得多。 **保持你的独立性。** 即使你主要使用闭源API,强大开源替代方案的存在本身就是一种筹码,而设计成可以切换的架构可以保护你免受任何单一供应商的定价或条款影响。开放权重的可移植性即使不使用也很有价值。 **对基准测试持怀疑态度。** 由于一些实验室在优化分数,透明度普遍下降,基准测试数字与现实世界实用性之间的差距正在扩大,因此在你自己的任务上进行你自己的评估比以前更重要。 ## 结论 十八个月前,开源与闭源之争还关乎开源模型能否参与竞争。今天,它们在几个月而非几个等级上落后于前沿,在成本上绝对领先,并且在市场的大片领域在采用率上领先,中国实验室设定了步伐。这是格局的真正转变,其背后的数据并不微妙。 但前沿本身仍然是闭源,并且仍然由美国微弱地领导着。离该领域最近的人们在真诚地争论:是开源将弥合那最后的差距,还是前沿会不断发现开源无法触及的新天地。最站得住赌注不是哪一方会赢,而是:模型层的商品化速度比几乎任何人预期的都要快;价值正在向在其上构建的东西迁移;未来两年正确的问题不再是哪个模型最好,而是哪个模型适合你手头的工作。 ## 常见问题解答 ### 开源AI正在追赶闭源AI吗? 是的,大幅追赶。2025年初,开源模型明显落后;到2026年年中,它们平均落后领先的闭源模型约三个月,而2024年底是约一年,

相似文章

开源权重模型并非通过抄袭来追赶闭源模型,它们之所以胜出,是因为整个AI堆栈正在悄然模块化

Reddit r/singularity

本文认为,开源权重AI模型追赶闭源模型并非通过蒸馏技术,而是得益于AI堆栈的模块化——稳定的接口(Transformer架构、兼容OpenAI的推理API、智能体框架)使得创新能在整个生态系统中迅速扩散,在缩小能力差距的同时保持巨大的价格优势,最终可能导致前沿AI的商品化。