deepseek-r1

#deepseek-r1

DeepSeek-R1的开放复现

Hacker News Top ↗ · 2026-06-11 缓存

Hugging Face的Open R1项目为DeepSeek-R1提供了完全开放的复现流程，包括蒸馏数据集、训练脚本和评估工具，旨在让任何人都能基于R1的推理能力进行复现和进一步开发。

0 人收藏 0 人点赞

#deepseek-r1

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

N-GRPO 在 GRPO 框架中引入语义邻居混合，以增强数学推理多样性并保持语义一致性，在数学基准和分布外任务上均取得了提升。

0 人收藏 0 人点赞

#deepseek-r1

arXiv cs.AI ↗ · 2026-05-11 缓存

本研究论文探讨了推理模型中的位置偏见，发现偏见并非随着“更多思考”而消除，而是与推理轨迹的长度成正比。该研究提供了因果证据，并提供了一套诊断工具包，用于审核多选问答评估中这种由长度驱动的偏见。

0 人收藏 0 人点赞

#deepseek-r1

Reddit r/LocalLLaMA ↗ · 2026-05-08

该文章探讨了模型蒸馏的难度和成本，以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例，询问为何蒸馏模型不常见。

0 人收藏 0 人点赞