一个4b模型现在在网络研究上击败30b模型，原因不在于规模

Reddit r/artificial 2026/06/17 14:17 模型

small-model open-source web-research benchmark data-quality training-method self-verification

摘要

来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型，这归因于精心构建的训练数据和自我验证技术，而非原始规模，表明AI能力发展趋向更民主化。

本月发布的模型中，有一件小事比平常的旗舰排行榜竞赛更让我印象深刻，因为它指出了真正有趣的进展所在。据报道，一个40亿参数的开放模型在几个难度较高的网页研究基准上击败了所有300亿参数级别的开源模型。不是匹敌，而是击败。一个可以在笔记本电脑上运行的模型，在出门查找资料、阅读来源并回答多步骤问题这一特定任务上，表现优于体积大约八倍的模型。有趣之处在于原因。过去几年，隐含的公式很简单：参数越多，能力越强，排行榜也基本印证了这一点。而这个结果说明，对于某些技能，这种关系要松散得多。构建该模型的人声称，其研究能力来自于训练数据的精心构建，以及教会模型检查和修改自己的工作，而非原始规模。换句话说，如何为任务训练一个小模型，可能比你投入一个多大的通用模型更为重要。这个模型来自一个名为apodex的家族，其核心思想是让系统在提交答案之前自我验证，而小型开放版本似乎继承了这一习惯，尽管其旗舰产品是一个更大的封闭模型。如果你自己不训练模型，这为何重要？昂贵且能力强大的研究助手大多隐藏在按查询收费的API之后。如果一个能在普通硬件上运行的小模型能够完成其中很大一部分工作，那么对于学生、小团队以及那些付费服务昂贵或根本无法获得的人来说，成本和可及性情况将发生变化。这也意味着，在某些任务上，大型实验室能做的东西与爱好者能在本地运行的东西之间的差距比旗舰产品的营销所暗示的要窄，这对该领域来说是健康的。需要说明的显而易见：基准测试获胜并不等于在你实际问题上可靠，而且小模型无法在真正困难的任务上匹敌大型托管系统。但方向值得关注。如果针对特定任务的能力杠杆是数据质量和训练方法而非参数数量，那么更多这样的成果就能被那些没有庞大计算预算的人所复现。这比过去两年所指明的方向更加民主化，而且这一点已经体现于你现在就可以下载的模型之中。

查看原文

一个4b模型现在在网络研究上击败30b模型，原因不在于规模

相似文章

@AlphaSignalAI: 一个4B模型现在可以在科学家之前预测科学突破。研究人员通常通过组…

为什么缺乏新的100B-120B模型？

为什么微博的迷你VibeThinker-3B再次引发AI界关于基准测试的争论（15分钟阅读）

@jinyuhou0: 在主流基准测试中，我们的30B模型与规模大20-30倍的系统（gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5）匹敌，而……

@rohanpaul_ai: 一个专为单一领域构建的小型模型，能否击败体积是其100倍的前沿通用模型？最近一篇论文显示……

提交意见反馈