@cjzafir: 一个3B参数的小语言模型:VibeThinker(基于Qwen 2.5微调)性能媲美Claude Opus 4.5。性能与以下模型相当: > De…
摘要
VibeThinker是一个3B参数的模型,基于Qwen 2.5微调,通过创新的后训练方法(包括多路径思维和在数学、编程、科学上的分阶段训练),实现了与Claude Opus 4.5以及更大的模型(如DeepSeek v3)相当的性能。
查看缓存全文
缓存时间: 2026/06/18 00:05
一个3B参数的SLM:VibeThinker(在Qwen 2.5上微调)达到了Claude Opus 4.5的性能表现。
与以下模型性能相当:
Deepseek v3(671B参数)但小220倍。 Kimi k2.5(1T参数)但小330倍。 GLM-5(744B参数)但小248倍。
你很快就能在Mac上运行这个模型了。
这绝非侥幸。他们的后训练工作非常有意思。
- 他们按巧妙的顺序训练:数学优先 → 编码其次 → 科学第三。
- 针对每个问题,他们让模型以多种不同方式思考,再选出最佳答案。
- 他们分两个阶段训练:先训练大量普通问题,再训练困难的、需要长程推理的问题。
- 他们专注于可验证的高质量合成数据集,并严格过滤所有劣质样本。
- 他们聚焦长程任务。一次性用长文本训练模型(而非逐步加长),使其能长时间思考而不混乱。
- 最后,他们添加了训练,让模型给出更简短但依然正确的答案(更高效)。
后训练(微调)创新至关重要,而《寓言5》发生的事应该让你意识到拥有自己智能的重要性。
我将测试这个模型并分享我的发现。
Francesco Bertolotti (@f14bertolotti): 一个3B模型展现出了耀眼的性能。这些成果主要通过基于Qwen2.5-Coder的后训练优化实现。论文没有提供太多细节,但看起来他们先从RL检查点进行蒸馏,然后做一轮基于指令的RL(强化学习)。
🔗
相似文章
@TheAhmadOsman: 性能媲美Opus 4.5的3B模型VibeThinker 3B(基于Qwen 2.5)
Ahmad Osman宣布了VibeThinker 3B,这是一个基于Qwen 2.5的30亿参数模型,声称性能可与Claude Opus 4.5媲美,并预测可在消费级硬件上进行本地部署。
@f14bertolotti:一款3B模型的出色表现。这些成果主要通过对Qwen2.5进行训练后优化而实现……
本技术报告介绍了VibeThinker-3B,一个3B参数的模型,通过对Qwen2.5-Coder进行训练后优化(包括基于课程的有监督微调、多域强化学习和离线自蒸馏),实现了前沿水平的可验证推理性能,达到或超越了DeepSeek V3.2等更大的模型。
WeiboAI/VibeThinker-3B
VibeThinker-3B 是一个拥有 3B 参数的模型,通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程,在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能,达到了与更大模型相当的性能。
@rasbt: 疯狂模型!它实际上使用了旧的Qwen2.5-Coder-3B栈,并通过后训练取得了非常出色的性能……
一个使用Qwen2.5-Coder-3B栈的3B参数模型,在编程基准测试中取得了与Claude Opus 4.5相媲美的分数,采用了详细的后训练技术,包括合成数据、过滤、两阶段SFT,以及一种新颖的RL方法(MGPO)。
@cjzafir:Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型,在全精度和 Q8 量化版本上达到了 98% 的准确率…
一位开发者报告称,使用 Unsloth 微调 Qwen 3.5 4B 和 8B 模型后取得了高准确率,这表明业界正转向针对细分任务使用专用的专家语言模型(ELMs)。