verifiable-reasoning

#verifiable-reasoning

@kimmonismus: 太疯狂了：一个3B模型现在在可验证推理任务上取得了极具竞争力的结果。VibeThinker-3B得分94.3……

X AI KOLs Following ↗ · 18小时前缓存

一个3B模型VibeThinker-3B通过在Qwen2.5-Coder上进行后训练优化，包括课程SFT、多领域RL、离线自我蒸馏以及最终的基于RL的指令阶段，在可验证推理任务上取得了极具竞争力的结果。

0 人收藏 0 人点赞

#verifiable-reasoning

X AI KOLs Timeline ↗ · 昨天缓存

本技术报告介绍了VibeThinker-3B，一个3B参数的模型，通过对Qwen2.5-Coder进行训练后优化（包括基于课程的有监督微调、多域强化学习和离线自蒸馏），实现了前沿水平的可验证推理性能，达到或超越了DeepSeek V3.2等更大的模型。

0 人收藏 0 人点赞

#verifiable-reasoning

Hugging Face Daily Papers ↗ · 2天前缓存

VibeThinker-3B是一款紧凑型3B参数量模型，通过专门的训练流程在可验证推理任务上实现了前沿水平的性能，与DeepSeek V3.2和Gemini 3 Pro等更大模型相当。

0 人收藏 0 人点赞

#verifiable-reasoning

Hugging Face Models Trending ↗ · 4天前缓存

VibeThinker-3B 是一个拥有 3B 参数的模型，通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程，在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能，达到了与更大模型相当的性能。

0 人收藏 0 人点赞

#verifiable-reasoning

arXiv cs.CL ↗ · 2026-05-12 缓存

DocScope 是一个新的基准测试，旨在评估多模态大语言模型在长文档上的可靠推理能力和可信度，引入了包含页面定位、区域定位、事实提取和答案验证四个阶段的评估协议。

0 人收藏 0 人点赞