deepseek-r1

标签

Cards List
#deepseek-r1

DeepSeek-R1的开放复现

Hacker News Top · 2026-06-11 缓存

Hugging Face的Open R1项目为DeepSeek-R1提供了完全开放的复现流程,包括蒸馏数据集、训练脚本和评估工具,旨在让任何人都能基于R1的推理能力进行复现和进一步开发。

0 人收藏 0 人点赞
#deepseek-r1

N-GRPO:嵌入级邻居混合以增强策略优化

Hugging Face Daily Papers · 2026-06-09 缓存

N-GRPO 在 GRPO 框架中引入语义邻居混合,以增强数学推理多样性并保持语义一致性,在数学基准和分布外任务上均取得了提升。

0 人收藏 0 人点赞
#deepseek-r1

思考越多,偏见越大:推理模型中由长度驱动的位置偏见

arXiv cs.AI · 2026-05-11 缓存

本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。

0 人收藏 0 人点赞
#deepseek-r1

蒸馏有多难?

Reddit r/LocalLLaMA · 2026-05-08

该文章探讨了模型蒸馏的难度和成本,以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例,询问为何蒸馏模型不常见。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈