@cjzafir: 一个3B参数的小语言模型:VibeThinker(基于Qwen 2.5微调)性能媲美Claude Opus 4.5。性能与以下模型相当: > De…

X AI KOLs Timeline 模型

摘要

VibeThinker是一个3B参数的模型,基于Qwen 2.5微调,通过创新的后训练方法(包括多路径思维和在数学、编程、科学上的分阶段训练),实现了与Claude Opus 4.5以及更大的模型(如DeepSeek v3)相当的性能。

一个3B参数的小语言模型:VibeThinker(基于Qwen 2.5微调)性能媲美Claude Opus 4.5。 性能与以下模型相当: > Deepseek v3(671B参数)但体积小220倍。 > Kimi k2.5(1T参数)但体积小330倍。 > GLM-5(744B参数)但体积小248倍。 你将能够在你的Mac上运行这个模型。 这不是偶然。他们的后训练工作非常有意思。 - 他们按照聪明的顺序训练:数学优先 → 编程其次 → 科学第三。 - 对于每个问题,他们让模型以多种不同方式思考,然后选出最佳答案。 - 他们分两个阶段训练:首先是在大量常规问题上,然后是在困难的长推理问题上。 - 他们专注于可验证的高质量合成数据集。同时大量过滤了所有不良示例。 - 他们专注于长期任务。一次性在长文本上训练(而不是逐步加长),这样模型就能长时间思考而不混淆。 - 最后,他们增加了训练,使模型给出更短但仍然正确的答案(更高效)。 后训练(微调)创新非常重要,Fable 5发生的事情应该让你意识到拥有自己的智能有多么重要。 我将测试这个模型,并分享我的发现。
查看原文
查看缓存全文

缓存时间: 2026/06/18 00:05

一个3B参数的SLM:VibeThinker(在Qwen 2.5上微调)达到了Claude Opus 4.5的性能表现。

与以下模型性能相当:

Deepseek v3(671B参数)但小220倍。 Kimi k2.5(1T参数)但小330倍。 GLM-5(744B参数)但小248倍。

你很快就能在Mac上运行这个模型了。

这绝非侥幸。他们的后训练工作非常有意思。

  • 他们按巧妙的顺序训练:数学优先 → 编码其次 → 科学第三。
  • 针对每个问题,他们让模型以多种不同方式思考,再选出最佳答案。
  • 他们分两个阶段训练:先训练大量普通问题,再训练困难的、需要长程推理的问题。
  • 他们专注于可验证的高质量合成数据集,并严格过滤所有劣质样本。
  • 他们聚焦长程任务。一次性用长文本训练模型(而非逐步加长),使其能长时间思考而不混乱。
  • 最后,他们添加了训练,让模型给出更简短但依然正确的答案(更高效)。

后训练(微调)创新至关重要,而《寓言5》发生的事应该让你意识到拥有自己智能的重要性。

我将测试这个模型并分享我的发现。

Francesco Bertolotti (@f14bertolotti): 一个3B模型展现出了耀眼的性能。这些成果主要通过基于Qwen2.5-Coder的后训练优化实现。论文没有提供太多细节,但看起来他们先从RL检查点进行蒸馏,然后做一轮基于指令的RL(强化学习)。

🔗

相似文章

WeiboAI/VibeThinker-3B

Hugging Face Models Trending

VibeThinker-3B 是一个拥有 3B 参数的模型,通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程,在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能,达到了与更大模型相当的性能。