@0xSero:适合你硬件的最佳模型——4GB到12GB显存——VibeThinker-3B——秒杀所有同量级模型……

X AI KOLs Timeline 模型

摘要

本推文推荐了针对不同显存容量优化的AI模型,重点介绍了VibeThinker-3B在3B参数量下的强大推理能力,以及其他用于编程和通用场景的模型。

适合你硬件的最佳模型 - 4GB到12GB显存 - VibeThinker-3B —— 秒杀所有同量级模型,甚至挑战30B模型!上一版本还登顶了数学基准测试。 https://huggingface.co/WeiboAI/VibeThinker-3B… - 12GB到24GB显存 - Gemma-12B-coder 基于已有的强劲模型构建,减少了拒绝回答的现象,并拥有基于fable traces训练的26.2万上下文窗口。 https://huggingface.co/yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF… - 24GB到64GB显存 - Gemma-4-26b-diffusion 该模型原本就是功能最强大、能力最全面的模型之一,现在在消费级硬件上已能达到500+ tok/s的速度!由Google DeepMind打造,极其智能。 https://huggingface.co/google/diffusiongemma-26B-A4B-it… Cohere North-Mini-Code 30B 一个由实力雄厚的实验室推出的新编程模型,如果你正在探索本地编程的极限,它值得一试。 https://huggingface.co/CohereLabs/North-Mini-Code-1.0… ——— 对于拥有4块RTX 6000或3块DGX Spark的用户,我认为我的GLM-5.2-REAP也值得一试。 试试看效果如何,记得告诉我!
查看原文
查看缓存全文

缓存时间: 2026/06/18 12:15

为您硬件推荐的最佳模型

  • 4GB 到 12GB 显存 -

VibeThinker-3B - 在同等参数量级内碾压所有模型,挑战30B级别模型!上一版本已在数学基准测试中登顶。 https://huggingface.co/WeiboAI/VibeThinker-3B…

  • 12GB 到 24GB 显存 -

Gemma-12B-coder

基于已有强大模型构建,减少拒绝回答,并拥有262K上下文窗口,基于fable traces训练。 https://huggingface.co/yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF…

  • 24GB 到 64GB 显存 -

Gemma-4-26b-diffusion

该模型原本就是功能最强大、能力最全面的模型之一,现在在消费级硬件上跑出500+ tok/s!由Google DeepMind打造,极其聪明。 https://huggingface.co/google/diffusiongemma-26B-A4B-it…

Cohere North-Mini-Code 30B

一个由实力雄厚的实验室推出的新编程模型,如果你希望测试本地编程能力的极限,值得一试。 https://huggingface.co/CohereLabs/North-Mini-Code-1.0…

——

对于拥有4张RTX 6000或3台DGX Spark的用户,我建议试试我的GLM-5.2-REAP。

欢迎反馈实际效果!


WeiboAI/VibeThinker-3B · Hugging Face

来源:https://huggingface.co/WeiboAI/VibeThinker-3B

🚨该模型未使用工具调用或基于Agent的编程数据进行训练。因此我们不建议将其用于涉及函数调用、API编排或自主编码Agent的任务。对于编程任务,我们建议将该模型用于竞赛编程题(如LeetCode风格)。

GitHub (https://github.com/WeiboAI/VibeThinker)|ModelScope (https://modelscope.cn/models/WeiboAI/VibeThinker-3B)|技术报告 (https://huggingface.co/papers/2606.16140)

https://huggingface.co/WeiboAI/VibeThinker-3B#introduction 引言

VibeThinker-3B是VibeThinker系列在3B参数量级上的进一步探索,专注于具有清晰验证信号的挑战性推理任务,如数学、编程和STEM。通过系统优化VibeThinker-1.5B中引入的Spectrum-to-Signal Principle (SSP) 后训练流程,VibeThinker-3B在AIME、HMMT、IMO-AnswerBench、LiveCodeBench以及近期LeetCode竞赛上取得了优异性能,在可验证推理基准上达到了包括Qwen3.6 Plus、Gemini 3 Pro、GLM-5和Kimi K2.5在内的顶级前沿推理模型的性能范围。

受以上观察启发,我们提出参数化压缩-覆盖假说:不同能力对模型参数的依赖方式存在根本差异。可验证推理更接近一种高度可压缩、参数密集的能力,主要基于多步推理、约束满足、自我纠错和答案验证。当任务空间足够结构化且反馈信号足够可靠时,紧凑模型也能携带接近前沿的推理能力。相反,开放领域知识、通用对话和长尾场景理解则更多依赖大规模参数来广泛覆盖事实、概念和世界知识。

从VibeThinker-1.5B到VibeThinker-3B,我们的目标不是构建一个取代大规模模型的小模型,而是在特定能力维度上考察小模型真正的边界。通过VibeThinker-3B,我们旨在表明小模型不应仅仅被视为降低部署成本的折衷方案。对于具有清晰反馈和验证机制的能力领域,小语言模型展现出一条通往前沿性能的有前途的研究路径,与传统的参数扩展范式形成根本性互补。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/Abstrct.png)

https://huggingface.co/WeiboAI/VibeThinker-3B#key-performance-data 关键性能数据

📏 在推理准确率相对于模型规模方面,VibeThinker-3B以仅3B参数在IMO-AnswerBench(包含400道IMO级别题目的高难度基准)上达到76.4,并通过Claim-Level Reliability Assessment (CLR)(一种用于答案可验证推理任务的测试时扩展策略)提升至80.6。这表明严格处于小模型范围内的模型可以达到显著更大模型(如DeepSeek V3.2 78.3, 671B;GLM-5 82.5, 744B;Kimi K2.5 81.8, 1T)的性能范围。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/Acc_and_Scale.png)

💡 VibeThinker-3B在数学、编程、知识和指令跟随基准上均取得了优异成绩。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/VibeThiinker-3B.png)

🔁 VibeThinker-3B在一级推理模型中取得有竞争力的结果,并在多项可验证推理基准上达到顶级系统的性能范围。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/VibeThinker-3B+CLR.png)

🏆 为进一步测试模型的分布外性能,我们在2026年4月25日至5月31日期间最新的未见过的LeetCode周赛和双周赛(Python)上评估了VibeThinker-3B。VibeThinker-3B一次性通过了123/128次提交,对应**96.1%**的通过率。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/LeetCode.png)

https://huggingface.co/WeiboAI/VibeThinker-3B#training-pipeline 训练流程

VibeThinker-3B遵循VibeThinker-1.5B中引入的Spectrum-to-Signal Principle (SSP)。SFT阶段构建了广泛的合理推理路径频谱,而RL阶段利用可验证奖励放大正确的推理信号。

alt text (https://huggingface.co/WeiboAI/VibeThinker-3B/blob/main/pictures/Architecture.png)

训练流程包含以下阶段:

  1. 基于课程的两阶段SFT

    • 阶段1:覆盖数学、代码、STEM推理、通用对话和指令跟随的广泛能力。
    • 阶段2:转向更难、更长跨度的推理样本。
    • 使用多样性探索蒸馏来保留多个有效解路径。
  2. 多领域推理RL

    • VibeThinker-3B复用MaxEnt-Guided Policy Optimization (MGPO)。
    • 依次对数学、代码和STEM推理任务实施RL。
    • 使用单个64K长上下文窗口训练,以保留完整的长跨度推理轨迹。
  3. 离线自蒸馏

    • 从数学、代码和STEM RL检查点中筛选高质量轨迹,蒸馏回统一的学生模型。
    • 使用学习潜力分数来优先选择正确但尚未被学生模型良好建模的轨迹。
  4. 指令RL

    • 最后阶段提高面向用户提示的可控性。
    • 对格式敏感和开放式的指令数据,使用基于规则的验证器和基于评分标准的奖励模型。

https://huggingface.co/WeiboAI/VibeThinker-3B#usage-guidelines 使用指南

我们建议将VibeThinker-3B用于竞赛类数学、编程、STEM推理以及其他目标答案可验证的任务。对于广泛的开放领域知识任务,较大的通用模型可能仍然更合适。

对于基准评测,技术报告中使用vLLM并设置:

  • temperature=1.0
  • top_p=0.95
  • top_k=-1

https://huggingface.co/WeiboAI/VibeThinker-3B#quick-start 快速开始

必需:transformers>=4.54.0

推荐用于更好的推理性能:vLLM==0.10.1 或 SGLang>=0.4.9.post6

from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig

class VibeThinker:
    def __init__(self, model_path):
        self.model_path = model_path
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_path,
            low_cpu_mem_usage=True,
            torch_dtype="bfloat16",
            device_map="auto",
        )
        self.tokenizer = AutoTokenizer.from_pretrained(
            self.model_path,
            trust_remote_code=True,
        )

    def infer_text(self, prompt):
        messages = [{"role": "user", "content": prompt}]
        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True,
        )
        model_inputs = self.tokenizer([text], return_tensors="pt").to(self.model.device)

        generation_config = dict(
            max_new_tokens=102400,
            do_sample=True,
            temperature=1.0,
            top_p=0.95,
            top_k=None,
        )
        generated_ids = self.model.generate(
            **model_inputs,
            generation_config=GenerationConfig(**generation_config),
        )
        generated_ids = [
            output_ids[len(input_ids):]
            for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
        ]

        return self.tokenizer.batch_decode(
            generated_ids,
            skip_special_tokens=True,
        )[0]

if __name__ == "__main__":
    model = VibeThinker("WeiboAI/VibeThinker-3B")
    prompt = "您的提示"
    print(model.infer_text(prompt))

https://huggingface.co/WeiboAI/VibeThinker-3B#license 许可证

该模型仓库使用MIT许可证。

https://huggingface.co/WeiboAI/VibeThinker-3B#citations–references 引用与参考文献

如果您在研究或产品中使用了VibeThinker-3B,请引用:

@misc{xu2026vibethinker3bexploringfrontierverifiable,
      title={VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models}, 
      author={Sen Xu and Shixi Liu and Wei Wang and Jixin Min and Yingwei Dai and Zhibin Yin and Yirong Chen and Xin Zhou and Junlin Zhang},
      year={2026},
      eprint={2606.16140},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2606.16140}, 
}

相似文章

WeiboAI/VibeThinker-3B

Hugging Face Models Trending

VibeThinker-3B 是一个拥有 3B 参数的模型,通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程,在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能,达到了与更大模型相当的性能。