一个4b模型现在在网络研究上击败30b模型,原因不在于规模
摘要
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
本月发布的模型中,有一件小事比平常的旗舰排行榜竞赛更让我印象深刻,因为它指出了真正有趣的进展所在。据报道,一个40亿参数的开放模型在几个难度较高的网页研究基准上击败了所有300亿参数级别的开源模型。不是匹敌,而是击败。一个可以在笔记本电脑上运行的模型,在出门查找资料、阅读来源并回答多步骤问题这一特定任务上,表现优于体积大约八倍的模型。有趣之处在于原因。过去几年,隐含的公式很简单:参数越多,能力越强,排行榜也基本印证了这一点。而这个结果说明,对于某些技能,这种关系要松散得多。构建该模型的人声称,其研究能力来自于训练数据的精心构建,以及教会模型检查和修改自己的工作,而非原始规模。换句话说,如何为任务训练一个小模型,可能比你投入一个多大的通用模型更为重要。这个模型来自一个名为apodex的家族,其核心思想是让系统在提交答案之前自我验证,而小型开放版本似乎继承了这一习惯,尽管其旗舰产品是一个更大的封闭模型。如果你自己不训练模型,这为何重要?昂贵且能力强大的研究助手大多隐藏在按查询收费的API之后。如果一个能在普通硬件上运行的小模型能够完成其中很大一部分工作,那么对于学生、小团队以及那些付费服务昂贵或根本无法获得的人来说,成本和可及性情况将发生变化。这也意味着,在某些任务上,大型实验室能做的东西与爱好者能在本地运行的东西之间的差距比旗舰产品的营销所暗示的要窄,这对该领域来说是健康的。需要说明的显而易见:基准测试获胜并不等于在你实际问题上可靠,而且小模型无法在真正困难的任务上匹敌大型托管系统。但方向值得关注。如果针对特定任务的能力杠杆是数据质量和训练方法而非参数数量,那么更多这样的成果就能被那些没有庞大计算预算的人所复现。这比过去两年所指明的方向更加民主化,而且这一点已经体现于你现在就可以下载的模型之中。
相似文章
@AlphaSignalAI: 一个4B模型现在可以在科学家之前预测科学突破。研究人员通常通过组…
一篇新论文介绍了GIANTS-4B,一个通过强化学习训练、拥有40亿参数的模型,它通过结合基础论文中的想法来预测科学见解,在相似度和引文潜力方面优于像Gemini 3 Pro这样的大型模型。
为什么缺乏新的100B-120B模型?
分析AI模型尺寸趋势,指出100-120B参数范围存在空白,近期发布主要聚焦于较小(25-35B)或较大(200B+)的模型。
为什么微博的迷你VibeThinker-3B再次引发AI界关于基准测试的争论(15分钟阅读)
微博的VibeThinker-3B,一个3B参数模型,声称在数学和编程基准测试中匹配或超越DeepSeek V3.2和Gemini 3 Pro等更大模型的推理性能,引发了关于基准测试可靠性和扩展必要性的争论。
@jinyuhou0: 在主流基准测试中,我们的30B模型与规模大20-30倍的系统(gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)匹敌,而……
一款新的30B模型在主流基准测试中与规模大20-30倍的系统匹敌,同时相比同类30/32B智能体大语言模型,使用的推理令牌减少高达95%。这是通过一个学习型配置器实现的,该配置器决定何时以及如何进行推理。模型和代码已开放。
@rohanpaul_ai: 一个专为单一领域构建的小型模型,能否击败体积是其100倍的前沿通用模型?最近一篇论文显示……
PolyAI的Raven 3.5是一款较小的专业模型,在延迟低于300毫秒的情况下,在所有客户服务基准测试中超越了GPT-5和Claude Sonnet 4.6。该公司还推出了ADK和PolyPhone,以加速企业级语音AI部署。