WeiboAI/VibeThinker-3B

Hugging Face Models Trending 模型

摘要

VibeThinker-3B 是一个拥有 3B 参数的模型,通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程,在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能,达到了与更大模型相当的性能。

任务:text-generation 标签:transformers, safetensors, qwen2, text-generation, math, code, reasoning, gpqa, instruction-following, conversational, en, arxiv:2606.16140, base_model:Qwen/Qwen2.5-Coder-3B, base_model:finetune:Qwen/Qwen2.5-Coder-3B, license:mit, text-generation-inference, endpoints_compatible, region:us
查看原文
查看缓存全文

缓存时间: 2026/06/16 17:34

WeiboAI/VibeThinker-3B · Hugging Face

来源:https://huggingface.co/WeiboAI/VibeThinker-3B GitHub (https://github.com/WeiboAI/VibeThinker) | ModelScope (https://modelscope.cn/models/WeiboAI/VibeThinker-3B) | 技术报告 (https://huggingface.co/papers/2606.16140)

介绍 (https://huggingface.co/WeiboAI/VibeThinker-3B#introduction)

VibeThinker-3B 是对 VibeThinker 系列在 3B 参数规模上的进一步探索,专注于具有清晰验证信号的具有挑战性的推理任务,例如数学、编码和 STEM。通过系统优化 VibeThinker-1.5B 中引入的频谱到信号原则 (SSP) 后训练流程,VibeThinker-3B 在 AIME、HMMT、IMO-AnswerBench、LiveCodeBench 和最近的 LeetCode 竞赛中取得了强大性能,在可验证推理基准上达到顶级前沿推理模型的性能范围,包括 Qwen3.6 Plus、Gemini 3 Pro、GLM-5 和 Kimi K2.5。

基于这些观察,我们提出参数化压缩-覆盖假说:不同能力以根本不同的方式依赖于模型参数。可验证推理更接近于一种高度可压缩、参数密集的能力,核心在于多步推理、约束满足、自我纠正和答案验证。当任务空间足够结构化且反馈信号足够可靠时,紧凑模型也能承载接近前沿的推理能力。相比之下,开放域知识、通用对话和长尾场景理解更依赖于大规模参数来广泛覆盖事实、概念和世界知识。

从 VibeThinker-1.5B 到 VibeThinker-3B,我们的目标不是构建一个替代大规模模型的小模型,而是沿着特定能力维度考察小模型的真实边界。通过 VibeThinker-3B,我们希望表明小模型不应仅仅被视为降低部署成本的折衷方案。对于具有清晰反馈和验证机制的能力领域,SLMs 成为一条有前景的研究路径,能够实现与传统的参数扩展范式根本互补的前沿级性能。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/Abstrct.png)

关键性能数据 (https://huggingface.co/WeiboAI/VibeThinker-3B#key-performance-data)

📏 在推理精度与模型规模的关系方面,VibeThinker-3B 在 IMO-AnswerBench(一个包含 400 道 IMO 级别难题的高难度基准)上仅用 3B 参数就达到了 76.4,并在使用 Claim-Level Reliability Assessment (CLR)(一种用于答案可验证推理任务的测试时扩展策略)后提升至 80.6。这表明严格小模型范围内的模型可以达到明显更大模型的性能范围,例如 DeepSeek V3.2 (78.3, 671B)、GLM-5 (82.5, 744B) 和 Kimi K2.5 (81.8, 1T)。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/Acc_and_Scale.png)

💡 VibeThinker-3B 在数学、编码、知识和指令遵循基准上均取得了强劲结果。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/VibeThiinker-3B.png)

🔁 VibeThinker-3B 与一线推理模型相比具有竞争力,并在多个可验证推理基准上达到顶级系统的性能范围。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/VibeThinker-3B+CLR.png)

🏆 为进一步测试模型的分布外性能,我们在 2026 年 4 月 25 日至 5 月 31 日期间未见过的近期 LeetCode 周赛和双周赛(Python)上评估了 VibeThinker-3B。VibeThinker-3B 在首次提交中通过了 123/128 道题目,对应 96.1% 的通过率。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/LeetCode.png)

训练流程 (https://huggingface.co/WeiboAI/VibeThinker-3B#training-pipeline)

VibeThinker-3B 遵循 VibeThinker-1.5B 中引入的 频谱到信号原则 (SSP)。SFT 阶段构建了有效推理轨迹的广泛频谱,而 RL 阶段使用可验证奖励放大正确的推理信号。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/Architecture.png)

训练流程包含以下阶段:

  1. 基于课程的兩阶段 SFT
    • 阶段1:关注数学、代码、STEM 推理、通用对话和指令遵循的广泛能力覆盖。
    • 阶段2:转向更困难、更长视线范围的推理样本。
    • 使用多样性探索蒸馏来保留多个有效解决方案路径。
  2. 多领域推理 RL
    • VibeThinker-3B 复用 MaxEnt-Guided Policy Optimization (MGPO)。
    • 依次对数学、代码和 STEM 推理任务应用 RL。
    • 训练采用单个 64K 长上下文窗口,以保留完整的长视线推理轨迹。
  3. 离线自蒸馏
    • 从数学、代码和 STEM RL 检查点中筛选出高质量轨迹,并蒸馏回统一的学生模型。
    • 使用学习潜力分数优先选择正确但学生模型尚未良好建模的轨迹。
  4. 指令 RL
    • 最终阶段提高对面向用户提示的可控性。
    • 对格式敏感和开放式指令数据使用基于规则的验证器和基于评分标准的奖励模型。

使用指南 (https://huggingface.co/WeiboAI/VibeThinker-3B#usage-guidelines)

我们建议将 VibeThinker-3B 用于竞赛型数学、编码、STEM 推理以及其他目标答案可验证的任务。对于广泛的开放域知识任务,更大的通用模型可能仍然更合适。

对于基准测试式评估,技术报告使用 vLLM,参数设置为:

  • temperature=1.0
  • top_p=0.95
  • top_k=-1

快速开始 (https://huggingface.co/WeiboAI/VibeThinker-3B#quick-start)

要求:transformers>=4.54.0

推荐以获得更好的推理性能:vLLM==0.10.1 或 SGLang>=0.4.9.post6

`` from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig

class VibeThinker: def init(self, model_path): self.model_path = model_path self.model = AutoModelForCausalLM.from_pretrained( self.model_path, low_cpu_mem_usage=True, torch_dtype=“bfloat16”, device_map=“auto”, ) self.tokenizer = AutoTokenizer.from_pretrained( self.model_path, trust_remote_code=True, )

def infer_text(self, prompt):
    messages = [{"role": "user", "content": prompt}]
    text = self.tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
    )
    model_inputs = self.tokenizer([text], return_tensors="pt").to(self.model.device)

    generation_config = dict(
        max_new_tokens=102400,
        do_sample=True,
        temperature=1.0,
        top_p=0.95,
        top_k=None,
    )
    generated_ids = self.model.generate(
        **model_inputs,
        generation_config=GenerationConfig(**generation_config),
    )
    generated_ids = [
        output_ids[len(input_ids):]
        for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    return self.tokenizer.batch_decode(
        generated_ids,
        skip_special_tokens=True,
    )[0]

if name == “main”: model = VibeThinker(“WeiboAI/VibeThinker-3B”) prompt = “Your Prompt” print(model.infer_text(prompt)) ``

许可证 (https://huggingface.co/WeiboAI/VibeThinker-3B#license)

模型仓库采用 MIT 许可证。

引用与参考文献 (https://huggingface.co/WeiboAI/VibeThinker-3B#citations–references)

如果您在研究或产品中使用 VibeThinker-3B,请引用:

@misc{xu2026vibethinker3bexploringfrontierverifiable, title={VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models}, author={Sen Xu and Shixi Liu and Wei Wang and Jixin Min and Yingwei Dai and Zhibin Yin and Yirong Chen and Xin Zhou and Junlin Zhang}, year={2026}, eprint={2606.16140}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2606.16140}, }

相似文章