verifiable-reasoning

标签

Cards List
#verifiable-reasoning

@kimmonismus: 太疯狂了:一个3B模型现在在可验证推理任务上取得了极具竞争力的结果。VibeThinker-3B得分94.3……

X AI KOLs Following · 18小时前 缓存

一个3B模型VibeThinker-3B通过在Qwen2.5-Coder上进行后训练优化,包括课程SFT、多领域RL、离线自我蒸馏以及最终的基于RL的指令阶段,在可验证推理任务上取得了极具竞争力的结果。

0 人收藏 0 人点赞
#verifiable-reasoning

@f14bertolotti:一款3B模型的出色表现。这些成果主要通过对Qwen2.5进行训练后优化而实现……

X AI KOLs Timeline · 昨天 缓存

本技术报告介绍了VibeThinker-3B,一个3B参数的模型,通过对Qwen2.5-Coder进行训练后优化(包括基于课程的有监督微调、多域强化学习和离线自蒸馏),实现了前沿水平的可验证推理性能,达到或超越了DeepSeek V3.2等更大的模型。

0 人收藏 0 人点赞
#verifiable-reasoning

VibeThinker-3B:探索小型语言模型中可验证推理的前沿

Hugging Face Daily Papers · 2天前 缓存

VibeThinker-3B是一款紧凑型3B参数量模型,通过专门的训练流程在可验证推理任务上实现了前沿水平的性能,与DeepSeek V3.2和Gemini 3 Pro等更大模型相当。

0 人收藏 0 人点赞
#verifiable-reasoning

WeiboAI/VibeThinker-3B

Hugging Face Models Trending · 4天前 缓存

VibeThinker-3B 是一个拥有 3B 参数的模型,通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程,在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能,达到了与更大模型相当的性能。

0 人收藏 0 人点赞
#verifiable-reasoning

DocScope:用于值得信赖的长文档理解的可靠推理基准测试

arXiv cs.CL · 2026-05-12 缓存

DocScope 是一个新的基准测试,旨在评估多模态大语言模型在长文档上的可靠推理能力和可信度,引入了包含页面定位、区域定位、事实提取和答案验证四个阶段的评估协议。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈