标签
Hugging Face的Open R1项目为DeepSeek-R1提供了完全开放的复现流程,包括蒸馏数据集、训练脚本和评估工具,旨在让任何人都能基于R1的推理能力进行复现和进一步开发。
N-GRPO 在 GRPO 框架中引入语义邻居混合,以增强数学推理多样性并保持语义一致性,在数学基准和分布外任务上均取得了提升。
本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。
该文章探讨了模型蒸馏的难度和成本,以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例,询问为何蒸馏模型不常见。