为什么微博的迷你VibeThinker-3B再次引发AI界关于基准测试的争论（15分钟阅读）

TLDR AI 2026/06/17 00:00 模型

small-language-model reasoning benchmark mathematics coding open-source

摘要

微博的VibeThinker-3B，一个3B参数模型，声称在数学和编程基准测试中匹配或超越DeepSeek V3.2和Gemini 3 Pro等更大模型的推理性能，引发了关于基准测试可靠性和扩展必要性的争论。

这个3B参数模型在编程基准测试中的得分与Claude Opus 4.5处于同一水平。

查看原文

查看缓存全文

缓存时间: 2026/06/18 00:54

# 为什么微博的微型VibeThinker-3B再次引发AI界关于基准测试的争论来源：https://venturebeat.com/technology/why-weibos-tiny-vibethinker-3b-has-the-ai-world-arguing-over-benchmarks-again 上周日，新浪微博（https://weibo.com/）——这家中国社交媒体巨头的微博平台比其尖端人工智能更为人所知——的九人研究团队悄然在arXiv上发布了一份14页的技术报告（https://arxiv.org/pdf/2606.16140），在AI研究界引起了震动。他们声称：一个仅有30亿参数的模型，就能在推理性能上匹敌甚至超越Google DeepMind（https://deepmind.google/）、OpenAI（https://openai.com/）、Anthropic（https://www.anthropic.com/）和DeepSeek（https://chat.deepseek.com/）等公司那些大数百倍的旗舰系统。这个名为VibeThinker-3B（https://github.com/WeiboAI/VibeThinker）的模型，在AIME 2026（https://aime26.aimedicine.info/）——美国邀请数学考试，世界上最严苛的标准化数学竞赛之一——上获得了94.3分。这一成绩与拥有6710亿参数的DeepSeek V3.2（https://api-docs.deepseek.com/news/news251201）并列，并超越了谷歌高性能旗舰推理系统Gemini 3 Pro（https://blog.google/products-and-platforms/products/gemini/gemini-3/）的91.7分。通过团队所谓的“声明级可靠性评估”测试时缩放技术，分数攀升至97.1，几乎超过了公开记录中的每一个系统。报告发布后的几小时内，该论文在Hugging Face每日论文（https://huggingface.co/papers/2606.16140）推送中获得了62个赞，模型仓库积累了130个喜欢，GitHub仓库（https://github.com/WeiboAI/VibeThinker）达到了685颗星。但在社交媒体上的反应并不全是赞美。在很多情况下，人们对此深表怀疑。 “AI世界到底发生了什么？”用户@orcus108（https://x.com/orcus108/status/2066876960073281582）在X上发帖，该帖子累计超过16.1万次浏览。“一个30亿参数的模型刚刚在编程基准测试上达到了与Claude Opus 4.5同一水平……我真的不知道这是突破还是基准测试出了问题。” 这种张力——介于真正的科学进步与越来越多人怀疑AI基准测试已被过度优化到毫无意义之间——正是VibeThinker-3B（https://github.com/WeiboAI/VibeThinker）故事的核心。而这个答案极其重要，不仅关乎学术上的荣誉，更关乎一个数十亿美元的问题：AI行业无休止地追求更大模型是否是通向智能的唯一道路。 ## **打破现代AI缩放定律的基准分数** 技术报告中报告的结果，按任何传统标准来看都非同寻常。在数学方面，VibeThinker-3B（https://github.com/WeiboAI/VibeThinker）在AIME 2025（https://artificialanalysis.ai/evaluations/aime-2025）上获得91.4分，在AIME 2026（https://llm-stats.com/benchmarks/aime-2026）上获得94.3分，在HMMT 2025（https://huggingface.co/datasets/MathArena/hmmt_feb_2025）（哈佛-麻省理工数学锦标赛）上获得89.3分，在BruMO 2025（https://huggingface.co/datasets/MathArena/brumo_2025）（布朗大学数学奥林匹克）上获得93.8分，在IMO-AnswerBench（https://huggingface.co/datasets/Hwilner/imo-answerbench）（包含400道国际数学奥林匹克级别问题的基准）上获得76.4分。在编程方面，它在LiveCodeBench v6（https://www.kaggle.com/benchmarks/open-benchmarks/livecodebench-release-v6）（一个测试可执行代码生成的基准）上获得了80.2%的Pass@1，并在2026年4月下旬至5月下旬的未见过的LeetCode每周（https://leetcode.com/contest/）和双周赛中达到了96.1%的通过率。在指令遵循方面，它在IFEval（https://huggingface.co/datasets/google/IFEval）上获得了93.4分。为了直观理解参数量的差距：DeepSeek V3.2（https://api-docs.deepseek.com/news/news251201）拥有6710亿个参数——大约是VibeThinker-3B（https://github.com/WeiboAI/VibeThinker）规模的224倍。智谱AI的GLM-5（https://huggingface.co/zai-org/GLM-5）拥有7440亿个参数。月之暗面的Kimi K2.5（https://huggingface.co/moonshotai/Kimi-K2.5）超过1万亿个参数。VibeThinker-3B的30亿参数可以在消费级笔记本电脑上运行。研究人员并未将这一结果视为异常，而是作为更广泛理论主张的证据。他们提出了所谓的“参数压缩-覆盖假设”（https://arxiv.org/pdf/2606.16140），该假设认为不同类型的AI能力与模型规模之间存在根本不同的关系。可验证推理——数学竞赛和编程挑战所测试的那种，答案可以被明确检查——是论文所称的“参数密集型”能力：可以压缩到一个紧凑的核心中。相反，开放领域知识则是“参数扩展型”，需要广泛覆盖事实、概念和边缘情况，这本质上就需要更多参数。论文直接承认了这一区别。在GPQA-Diamond（https://epoch.ai/benchmarks/gpqa-diamond）（一个研究生级别的科学知识基准）上，VibeThinker-3B仅获得70.2分——远低于Gemini 3 Pro的91.9分和Claude Opus 4.5的87.0分。作者写道，这种差距“与我们声称的主张一致，而不是矛盾：主要发现并非一个3B模型已经完全取代了领先的通用模型，而是一个小模型可以在许多可验证的推理任务上达到一流水平。” ## **驱动微型推理引擎的四阶段训练流水线** VibeThinker-3B（https://github.com/WeiboAI/VibeThinker）并非从零构建。它是在阿里巴巴Qwen团队的紧凑基础模型Qwen2.5-Coder-3B（https://huggingface.co/Qwen/Qwen2.5-Coder-3B）之上，通过微博AI研究人员所谓的“频谱到信号原则”进行后训练——这是一个多阶段流水线，首次在团队2025年11月早期的VibeThinker-1.5B工作中引入。训练分为四个主要阶段。第一阶段是一个两阶段监督微调过程，使用课程学习：模型首先在一个涵盖数学、代码、STEM推理、通用对话和指令遵循数据的广泛混合数据集上训练，然后转向一个经过精心挑选的更难、更长程推理问题的子集。在第二阶段，推理轨迹短于5000个token的样本被丢弃，并且VibeThinker-1.5B（https://huggingface.co/WeiboAI/VibeThinker-1.5B）能解决超过75%时间的问题被过滤掉，迫使模型专注于真正的困难挑战。第二阶段应用跨多个领域——数学、代码和STEM——的强化学习，使用团队的最大熵引导策略优化（MGPO）算法，该算法优先训练模型当前能力边界附近的问题，而不是那些模型已经能轻松解决或完全无法解决的问题。值得注意的是，团队发现，在1.5B规模上表现良好的策略——在RL训练期间逐步扩展上下文窗口——在3B规模上反而损害了性能。他们推测，更强的起始检查点意味着在预热阶段截断推理轨迹不再是为了去除噪声，而是扰乱了有效的推理模式。解决方案是全程使用单个64,000 token的上下文窗口进行训练。在数学RL阶段内部，团队还引入了所谓的“Long2Short Math RL”（https://arxiv.org/pdf/2606.16140），一个二次优化阶段，重新分配奖励以偏向更短的正确答案而非更长的答案，从而在不牺牲准确性的情况下减少冗长。该技术使用零和奖励重新分配，在不偏置整体奖励信号的同时，推动模型走向更高效的推理。第三阶段从RL训练的检查点中提取高质量推理轨迹，并通过监督微调将其蒸馏回一个统一的模型。团队使用“学习潜力评分”——本质上是学生模型在每个教师轨迹上的困惑度——来优先选择那些正确但学生尚未内化的轨迹。最后阶段称为Instruct RL，对指令遵循任务应用强化学习，结合用于格式约束的基于规则的验证器和用于开放式质量评估的基于评分标准的奖励模型。 AI研究员Francesco Bertolotti（https://x.com/f14bertolotti/status/2066752828505288902）在X上早期指出了这篇论文，他简洁地描述了这种方法：“这些结果主要是通过在Qwen2.5-Coder上进行后训练优化实现的。论文没有提供很多细节，但看起来他们从RL检查点进行蒸馏，然后进行最终的基于RL的指令RL。”他的帖子获得了超过16.1万次浏览。 ## **现实世界测试揭示了基准分数与AI实际性能之间的差距** 每一个热情的反应背后，论文都伴随着同样有力的反对。2026年中期的AI研究界已经对基于基准驱动的声明深感警惕，VibeThinker-3B（https://github.com/WeiboAI/VibeThinker）出现在一个充满怀疑的环境中。 “这些基准只不过是模式匹配的单文件编程，”用户@BigMoonKR（https://x.com/BigMoonKR/status/2066950583941214698）在X上写道。“它与实际编码工作毫无关系。我不知道为什么人们仍然不明白这一点。” “刷基准，”用户@oflu\_bedirhan（https://x.com/oflu_bedirhan/status/2066883558388404717）宣称，使用了一个已成为AI社区代名词的术语，用来指代那些似乎专门为基准性能优化、牺牲现实世界实用性的模型。最尖锐的批评来自那些实际下载并测试了模型的用户。“刚刚试了全精度版本，”用户@politilols（https://x.com/politilols/status/2066901234091438132）写道。“它甚至不知道uv脚本（最流行的Python开发工具）是什么。至少一年来我没在任何LLM中见过这种情况。纯属刷基准。”当Bertolotti回应称该模型似乎更侧重于数学推理而非实际编程时，该用户反驳说：“他们列出了一个livecodebench分数。这绝不反映模型的实际能力。” 用户@Itsdotdev（https://x.com/Itsdotdev/status/2066961630521385166）提出了一个结构性的批评：“看看这些基准本身，可能就不会那么令人震惊了。为什么没有DeepSWE？为什么没有SOTA提供商使用的标准基准？”用户@AvenirReym提出了一个更具诊断性的问题：“如果在模型训练截止日期之后创建的基准上它仍然有效，那就是真的。如果它只赢在那些已经流传了几年的AIME风格数据集上，那就是数据泄露。” 论文的作者似乎预料到了这些反对意见。技术报告指出训练集“经过了严格的基准去污”，包括基于n-gram的过滤，以移除“与评估集的n-gram重叠”。 LeetCode竞赛评估——涵盖2026年4月25日至5月31日的竞赛，这些日期晚于任何合理的训练数据截止日期——代表了针对数据污染问题最有力的防护。在这些竞赛中，VibeThinker-3B在128次首次提交中通过了123次，通过率96.1%，在相同评估条件下超过了GPT-5.2、Doubao Seed 2.0 Pro、Kimi K2.5和Claude Opus 4.6。然而，现实世界的用户报告显示基准性能与实际效用之间存在显著差距——这一现象在整个行业已屡见不鲜。“在LM Studio中，它只对第一个问题回答得好，后续问题的回答又回到第一个问题上，”用户@luismolinaab（https://x.com/luismolinaab/status/2066980744220528940）报告称。 ## **为什么一家社交媒体公司可能找到了缩放假说的裂缝** 即使是最尖锐的批评者也承认，在30亿参数下实现这些基准数字——无论这些结果在多大程度上能迁移到生产用例——都是一项有意义的工程成就。“即使是在刷基准，用30亿参数做到这一点也令人着迷，这展示了这个领域发展得有多快，”用户@rohityin（https://x.com/rohityin/status/2066913806287327302）写道。这一观察切中了自缩放假说提出以来一直困扰AI行业的问题：越大就一定越好吗？传统观点——由Chinchilla缩放定律最为著名地阐述，并被越来越大基础模型的商业主导地位所强化——认为更多参数和更多训练数据能可靠地带来更好的性能。其经济推论是严峻的：训练和部署前沿模型需要数千万甚至数亿美元的成本，造成了巨大的进入壁垒。 VibeThinker-3B（https://huggingface.co/WeiboAI/VibeThinker-3B）挑战了这一共识——但只是部分挑战。论文谨慎地划定了其主张的边界，区分了具有“清晰验证信号”的任务和需要广泛事实知识的任务。参数压缩-覆盖假设明确认为小模型无法全面替代大模型。 “VibeThinker-3B的真正意义并不在于证明一个3B模型可以取代大规模通才，”论文指出，“而在于提供一个具体的实证信号：紧凑模型的发展不再仅仅是为了部署效率或成本控制而做出的被动妥协；它成为了一条有前途的研究轨迹，从根本上与传统参数缩放范式互补。” 这项工作中最令人惊讶的元素或许是它的来源。新浪微博——在纳斯达克和香港公开上市，市值在数十亿美元范围内波动——通常不被视为前沿AI研究的代表公司。然而VibeThinker系列是微博在七个月内第二次主要的开源AI贡献。 VibeThinker-1.5B（https://huggingface.co/WeiboAI/VibeThinker-1.5B），于2025年11月发布，证明了仅15亿参数的模型就能在几个数学基准上超越最初的DeepSeek R1——团队声称这一结果的后训练成本仅为7,800美元，而DeepSeek R1的估算成本为29.4万美元。研究团队规模紧凑——九位作者，全部列为新浪微博股份有限公司员工。该模型根据MIT许可（https://opensource.org/license/mit）发布，这是最宽松的开源许可证之一，权重可从Hugging Face（https://huggingface.co/WeiboAI/VibeThinker-3B）和ModelScope（https://modelscope.cn/models/WeiboAI/VibeThinker-3B）自由下载。发布首日，社区成员已经创建了GGUF量化版本和衍生模型。 ## **小模型，大影响，以及AI行业无法再回避的问题** 对VibeThinker-3B（https://huggingface.co/WeiboAI/VibeThinker-3B）最诚实的评价可能是，它既比基准分数所暗示的少，也更多。更少，是因为一个在流行开发者工具基本知识上挣扎的模型，不太可能在短期内取代任何生产级别的编程助手。更多，是因为其核心洞察——推理能力和事实知识在部分上是解耦的，前者可以被压缩得

为什么微博的迷你VibeThinker-3B再次引发AI界关于基准测试的争论（15分钟阅读）

相似文章

WeiboAI/VibeThinker-3B

@aijoey: WeiboAI 发布了 VibeThinker-3B，所以我必须在本地尝试一下。这是一个 3B 模型，不是大型前沿系统。在视频中…

@TeksEdge：激动人心的消息！VibeThinkiner-3B来了！好的，localmaxxers准备好测试吧！！为什么？因为3B模型的推理宣称达到了SOTA级别…

将原先的VibeThinker-1.5B扩展到3B——现已达到前沿数学与编程性能

VibeThinker-3B：探索小型语言模型中可验证推理的前沿

提交意见反馈