开源权重大语言模型与闭源大语言模型之间的差距

Hacker News Top 新闻

摘要

使用Artificial Analysis Intelligence Index和其他基准测试分析开源权重与闭源大语言模型之间的差距,发现在某些指标上差距正在缩小,但在其他指标上保持稳定。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/26 23:21

# 预测:前沿开源大语言模型将于2026年12月3日发布 | Doubleword 来源:https://blog.doubleword.ai/frontier-os-llm 开放与封闭前沿模型的人工分析智能指数交互式图表。 我在推特上看到过上面那张图表的某个版本,想深入了解一下。这张图展示的是开源权重大语言模型与闭源大语言模型之间的差距。我们通过观察开源权重模型在某个基准测试上的性能前沿,然后回溯闭源模型达到该水平的时间点来度量这一差距。它衡量的是:开源模型追上闭源模型前沿所达到的新能力,需要花费多长时间。这个基准测试是“人工分析智能指数”——这是他们试图评估模型整体能力的核心指数。总体而言,它与人们从模型中获得的“感觉”相当吻合。 可以看到,大约在2024年夏季,该基准测试上的差距开始缩小,并且此后一直在稳步缩小。如果画出一条最佳拟合线并延伸到未来,你会发现差距会在**2026年12月3日**左右缩小到0个月——距本文写作时大约还有6个月。 现在或许是时候清算你的养老金,飞往某个偏僻小岛,在文明最后的6个月里平静地度过余生。 …… 只不过。 这可能并非全貌。这只是单一的基准测试,不能全面反映大语言模型的能力。幸运的是,人工分析公司为我们提供了18个不同的基准测试结果,这些结果都是他们对这些模型测量所得。我对所有18个基准测试重复了同样的分析,并将结果汇总到下图: 按月统计的开放模型前沿滞后月数交互式箱线图(基于人工分析指标)。 针对这18个数据集,我们分别制作了类似的图表(你可以在页面底部看到全部18张)。每个月,我们为每个数据集绘制了一个箱线图,展示其差距。然后,我们将所有箱线图按时间顺序绘制出来。我们还计算了所有数据集上差距的平均值,并据此画出一条最佳拟合线。这条线几乎完全平坦,整个时期都保持在接近5个月的水平。 值得注意的是,模型整体的改进大部分集中在编程基准测试上。编程指数从落后15个月缩减到仅落后一两个月。其他大多数数据集的差距随时间推移呈现适度增长。 所以,或许开源末日还不会到来。 这项练习表明,衡量大语言模型质量是一件困难的事情。根据你采用的衡量标准,你可能预测开源奇点会在圣诞节前出现,也可能认为开源大语言模型始终落后闭源模型5个月,并且差距可能还在扩大。 基准测试图 人工分析智能指数交互式前沿图。

相似文章

估计开放权重大型语言模型的最坏情况前沿风险

OpenAI Blog

OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

Hacker News Top

智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。

Gate AI:LLM安全基准评估方法与结果

arXiv cs.LG

本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。