开源权重大语言模型与闭源大语言模型之间的差距

Hacker News Top 2026/06/26 21:14 新闻

摘要

使用Artificial Analysis Intelligence Index和其他基准测试分析开源权重与闭源大语言模型之间的差距，发现在某些指标上差距正在缩小，但在其他指标上保持稳定。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/26 23:21

# 预测：前沿开源大语言模型将于2026年12月3日发布 | Doubleword 来源：https://blog.doubleword.ai/frontier-os-llm 开放与封闭前沿模型的人工分析智能指数交互式图表。我在推特上看到过上面那张图表的某个版本，想深入了解一下。这张图展示的是开源权重大语言模型与闭源大语言模型之间的差距。我们通过观察开源权重模型在某个基准测试上的性能前沿，然后回溯闭源模型达到该水平的时间点来度量这一差距。它衡量的是：开源模型追上闭源模型前沿所达到的新能力，需要花费多长时间。这个基准测试是“人工分析智能指数”——这是他们试图评估模型整体能力的核心指数。总体而言，它与人们从模型中获得的“感觉”相当吻合。可以看到，大约在2024年夏季，该基准测试上的差距开始缩小，并且此后一直在稳步缩小。如果画出一条最佳拟合线并延伸到未来，你会发现差距会在**2026年12月3日**左右缩小到0个月——距本文写作时大约还有6个月。现在或许是时候清算你的养老金，飞往某个偏僻小岛，在文明最后的6个月里平静地度过余生。 …… 只不过。这可能并非全貌。这只是单一的基准测试，不能全面反映大语言模型的能力。幸运的是，人工分析公司为我们提供了18个不同的基准测试结果，这些结果都是他们对这些模型测量所得。我对所有18个基准测试重复了同样的分析，并将结果汇总到下图：按月统计的开放模型前沿滞后月数交互式箱线图（基于人工分析指标）。针对这18个数据集，我们分别制作了类似的图表（你可以在页面底部看到全部18张）。每个月，我们为每个数据集绘制了一个箱线图，展示其差距。然后，我们将所有箱线图按时间顺序绘制出来。我们还计算了所有数据集上差距的平均值，并据此画出一条最佳拟合线。这条线几乎完全平坦，整个时期都保持在接近5个月的水平。值得注意的是，模型整体的改进大部分集中在编程基准测试上。编程指数从落后15个月缩减到仅落后一两个月。其他大多数数据集的差距随时间推移呈现适度增长。所以，或许开源末日还不会到来。这项练习表明，衡量大语言模型质量是一件困难的事情。根据你采用的衡量标准，你可能预测开源奇点会在圣诞节前出现，也可能认为开源大语言模型始终落后闭源模型5个月，并且差距可能还在扩大。基准测试图人工分析智能指数交互式前沿图。

开源权重大语言模型与闭源大语言模型之间的差距

相似文章

估计开放权重大型语言模型的最坏情况前沿风险

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

OpenBMB 发布 MiniCPM5-1B 大语言模型。目前同尺寸下最强大的大语言模型之一。（在 Artificial Analysis Intelligence Index 上得分为 17.9）

Gate AI：LLM安全基准评估方法与结果

@Miles_Brundage: 我不确定是否见过对蒸馏缩小这一差距的程度有好的分析——人们对此有截然不同的看法……

提交意见反馈