标签
Hugging Face的Open R1项目为DeepSeek-R1提供了完全开放的复现流程,包括蒸馏数据集、训练脚本和评估工具,旨在让任何人都能基于R1的推理能力进行复现和进一步开发。
N-GRPO 在 GRPO 框架中引入语义邻居混合,以增强数学推理多样性并保持语义一致性,在数学基准和分布外任务上均取得了提升。
本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。
该文章探讨了模型蒸馏的难度和成本,以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例,询问为何蒸馏模型不常见。
Daniel Han 在 AI 工程师世界大会上深入讲解了强化学习、模型微调、量化与智能体的实战经验,回顾了从 Llama 到 DeepSeek R1 的开源模型演进,并剖析了现代模型训练的五个关键阶段。