@cjzafir: 一个3B参数的小语言模型：VibeThinker（基于Qwen 2.5微调）性能媲美Claude Opus 4.5。性能与以下模型相当： > De…

X AI KOLs Timeline 2026/06/17 15:39 模型

small-language-model qwen fine-tuning post-training reasoning efficient

摘要

VibeThinker是一个3B参数的模型，基于Qwen 2.5微调，通过创新的后训练方法（包括多路径思维和在数学、编程、科学上的分阶段训练），实现了与Claude Opus 4.5以及更大的模型（如DeepSeek v3）相当的性能。

一个3B参数的小语言模型：VibeThinker（基于Qwen 2.5微调）性能媲美Claude Opus 4.5。性能与以下模型相当： > Deepseek v3（671B参数）但体积小220倍。 > Kimi k2.5（1T参数）但体积小330倍。 > GLM-5（744B参数）但体积小248倍。你将能够在你的Mac上运行这个模型。这不是偶然。他们的后训练工作非常有意思。 - 他们按照聪明的顺序训练：数学优先 → 编程其次 → 科学第三。 - 对于每个问题，他们让模型以多种不同方式思考，然后选出最佳答案。 - 他们分两个阶段训练：首先是在大量常规问题上，然后是在困难的长推理问题上。 - 他们专注于可验证的高质量合成数据集。同时大量过滤了所有不良示例。 - 他们专注于长期任务。一次性在长文本上训练（而不是逐步加长），这样模型就能长时间思考而不混淆。 - 最后，他们增加了训练，使模型给出更短但仍然正确的答案（更高效）。后训练（微调）创新非常重要，Fable 5发生的事情应该让你意识到拥有自己的智能有多么重要。我将测试这个模型，并分享我的发现。

查看原文

查看缓存全文

缓存时间: 2026/06/18 00:05

一个3B参数的SLM：VibeThinker（在Qwen 2.5上微调）达到了Claude Opus 4.5的性能表现。

与以下模型性能相当：

Deepseek v3（671B参数）但小220倍。 Kimi k2.5（1T参数）但小330倍。 GLM-5（744B参数）但小248倍。

你很快就能在Mac上运行这个模型了。

这绝非侥幸。他们的后训练工作非常有意思。

他们按巧妙的顺序训练：数学优先 → 编码其次 → 科学第三。
针对每个问题，他们让模型以多种不同方式思考，再选出最佳答案。
他们分两个阶段训练：先训练大量普通问题，再训练困难的、需要长程推理的问题。
他们专注于可验证的高质量合成数据集，并严格过滤所有劣质样本。
他们聚焦长程任务。一次性用长文本训练模型（而非逐步加长），使其能长时间思考而不混乱。
最后，他们添加了训练，让模型给出更简短但依然正确的答案（更高效）。

后训练（微调）创新至关重要，而《寓言5》发生的事应该让你意识到拥有自己智能的重要性。

我将测试这个模型并分享我的发现。

Francesco Bertolotti (@f14bertolotti): 一个3B模型展现出了耀眼的性能。这些成果主要通过基于Qwen2.5-Coder的后训练优化实现。论文没有提供太多细节，但看起来他们先从RL检查点进行蒸馏，然后做一轮基于指令的RL（强化学习）。

🔗

@cjzafir: 一个3B参数的小语言模型：VibeThinker（基于Qwen 2.5微调）性能媲美Claude Opus 4.5。性能与以下模型相当： > De…

相似文章

@TheAhmadOsman: 性能媲美Opus 4.5的3B模型VibeThinker 3B（基于Qwen 2.5）

@f14bertolotti：一款3B模型的出色表现。这些成果主要通过对Qwen2.5进行训练后优化而实现……

WeiboAI/VibeThinker-3B

@rasbt: 疯狂模型！它实际上使用了旧的Qwen2.5-Coder-3B栈，并通过后训练取得了非常出色的性能……

@cjzafir：Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上达到了 98% 的准确率…

提交意见反馈