像DeepSWE这样的新基准测试现在显示专有模型与开源模型之间存在巨大差距

Reddit r/singularity 2026/05/31 21:19 新闻

benchmarks open-source proprietary-models ai-performance model-comparison

摘要

像DeepSWE这样的新基准测试揭示了专有与开源AI模型之间的显著性能差距，令开源社区感到失望。

以前我们只能看到闭源模型和开源模型之间的微小差距。希望开源能再追上一些。目前这相当令人失望。https://preview.redd.it/prwafwsghj4h1.png?width=1448&format=png&auto=webp&s=04b2656474065e6bd3c15c244d585c542f8f526d

查看原文

相似文章

开源模型落后了多少？（17分钟阅读）

TLDR AI

LessWrong上的一篇分析，探讨了开源与专有AI模型之间的性能差距。

@EpochAIResearch：我们重新审视了开源权重模型与专有模型之间的能力差距。自年初以来，开源权重模型一直比最先进水平落后约四个月...

X AI KOLs Following

Epoch AI Research 分析了开源权重模型与专有模型之间的能力差距，发现自年初以来，开源权重模型一直比最先进水平落后约四个月。

企业界对开源AI的看法都是错的（3分钟阅读）

TLDR AI

Decagon 将 90% 的工作负载运行在微调后的开源模型上，以获得低延迟和高性能；而由于使用前沿模型的新用例激增，企业整体在开源大语言模型上的支出已降至 11%。文章认为，随着用例逐渐成熟，它们将从闭源模型迁移到开源模型。

有人对新DeepSWE进行了审计，结果不太好看

Reddit r/singularity

DeepSWE是一个新的基准测试，用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现，包含113个任务，涵盖TypeScript、Go、Python、JavaScript和Rust，提供隔离环境和基于程序的验证器。

开放与封闭AI模型：2025-2026年差距如何缩小及未来走向

Reddit r/artificial

本文探讨了从2025年初到2026年中，开放与封闭AI模型之间的性能差距如何急剧缩小，以DeepSeek开放模型的发布及其后续市场影响为例。文章还讨论了中国实验室在推动开放前沿方面的作用及其对行业的影响。

提交意见反馈