标签
一个3B模型VibeThinker-3B通过在Qwen2.5-Coder上进行后训练优化,包括课程SFT、多领域RL、离线自我蒸馏以及最终的基于RL的指令阶段,在可验证推理任务上取得了极具竞争力的结果。
本技术报告介绍了VibeThinker-3B,一个3B参数的模型,通过对Qwen2.5-Coder进行训练后优化(包括基于课程的有监督微调、多域强化学习和离线自蒸馏),实现了前沿水平的可验证推理性能,达到或超越了DeepSeek V3.2等更大的模型。
VibeThinker-3B是一款紧凑型3B参数量模型,通过专门的训练流程在可验证推理任务上实现了前沿水平的性能,与DeepSeek V3.2和Gemini 3 Pro等更大模型相当。
VibeThinker-3B 是一个拥有 3B 参数的模型,通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程,在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能,达到了与更大模型相当的性能。
DocScope 是一个新的基准测试,旨在评估多模态大语言模型在长文档上的可靠推理能力和可信度,引入了包含页面定位、区域定位、事实提取和答案验证四个阶段的评估协议。