@sheriyuo: https://x.com/sheriyuo/status/2063295181131247674

X AI KOLs Timeline 2026/06/06 16:21 工具

摘要

一份精心整理的35个关键强化学习面试问题清单，涵盖算法和基础设施主题，根据社区经验和最新趋势汇编而成。

https://t.co/aJEXibSlmN

查看原文

查看缓存全文

缓存时间: 2026/06/08 13:25

RL 面试题 2026

看到好几个人刚拿到PhD offer，紧接着又在春招里拿下了薪水很高的工业界职位，我就开始琢磨：说不定直接去工业界才是更好的路子。

于是我把知乎上能搜到的、跟RL相关的面试经历几乎全过了一遍，又结合了近期的讨论和我自己的观察，最后提炼出了35个最有意思的问题。

你可以把它当成一份RL面试基准。

中文版在知乎：https://zhuanlan.zhihu.com/p/2046740446353811230

几点说明：

• 这个列表没有严格区分LLM RL和Agentic RL。有些问题的答案会根据场景完全不同。

• 几乎每个问题都可以往深挖很多。没有提供参考答案。如果你用大模型，记得不断追问，还要做广泛搜索。

• 现代RL招聘越来越要求全栈理解。如果你是算法研究员，别人依然会问基础设施问题。反之亦然。

• 数据相关的问题没有包含在内。那些几乎没法靠背，非常依赖你实际的经验。

• 只背面试题是不够的。深度理解远比它重要。

算法

为什么使用Actor-Critic而不是纯Critic方法？
KL散度、交叉熵和MLE之间是什么关系？
在不同的RL场景下该如何设计奖励？
重要性采样、拒绝采样和其他蒙特卡洛方法如何融入RL？
PPO和GRPO中的优势是怎么计算的？为什么减去一个baseline？标准差归一化真的必要吗？
RL训练和test-time scaling在探索方式上有何不同？
PPO的clipping是怎么工作的？为什么要取最小目标？没有clipping会怎样？CISPO有何不同？
GRPO为什么要加KL惩罚？KL是怎么计算的？为什么DAPO、GSPO等方法去掉了它？
在大模型训练中，如果loss被意外多次All Reduce，会发生什么？
DPO中的奖励函数是什么样的？可能出现reward hacking吗？如何缓解？
MoE模型中训练与推理不一致的问题有哪些解决方法？它们是怎么工作的？
RL训练时如何选择group size、学习率、PPO epochs和生成长度？
相比GRPO，Dr.GRPO、DAPO、GSPO、CISPO、SAPO、DPPO、MaxRL、SimKO这些方法在训练过程中做了哪些改进？它们的局限是什么？
TRPO、DPPO、AReaL如何在RL目标上施加信任区域约束？
RL能否从根本上扩展大模型的能力边界？
基于ProRL等工作，我们该如何思考RL训练边界的扩展？
OPD相比传统RL和SFT有哪些改进？它的应用场景是什么？
推理能力是在训练的哪个阶段出现在大模型中的？
从DeepSeek R1到V3.2再到未来的V4系列，引入了哪些RL相关改进？MoE模型中的RL有何不同？

基础设施

不考虑CPU offload，GRPO训练时内存中会存在多少份模型副本？各种优化能节省多少内存？
分布式推理：KV cache传输优化和多GPU通信策略。
INT8与FP8。各自的权衡是什么？训练和推理分别偏好哪种精度？
RL rollout中的长尾问题是什么？如何解决？
连续批处理在RL训练中引入了哪些问题？vLLM和SGLang有什么不同？
如何在vLLM和SGLang中衡量利用率？训练时如何评估KV cache利用率？
大规模多节点RL训练中反向传播是如何实现的？
有哪些异步RL框架？它们解决了哪些同步瓶颈？
在AReaL或其他部分rollout框架中，是否保留之前策略的KV cache？
Expert Parallelism如何影响MoE的吞吐量？
在长上下文训练中，如何设计计算与通信的重叠？Megatron和FSDP在并行策略上有何不同？
如何实现确定性执行？什么是batch invariance？什么导致的它？是否涉及atomic add？atomic add能解决这个问题吗？
AReaL和slime在理解RL rollout瓶颈上有何不同？
如何看待完全异步RL训练中的陈旧性问题？实践中典型的值是多少？
数据在slime中是如何流动的？它如何与Megatron集成？loss是怎么计算的？
如果必须从VeRL、TRL、Unsloth、AReaL和slime中选一个，你会选哪个？为什么？

祝好运。

记住：面试准备有帮助，但真正的理解比死记硬背的答案要强大得多。

相似文章

@Phoenixyin13: 强烈Recommend这个RL面试问题合集！ @sheriyuo 整理的35道RL benchmark，Algorithm+Infrastructure全覆盖，从PPO、GRPO的clip、KL penalty、advantage计算，到…

X AI KOLs Timeline

推荐一个由@sheriyuo整理的RL面试问题合集，覆盖PPO、GRPO、MoE、vLLM等算法与基础设施，适合准备LLM RL方向面试与研究者。

@SergioPaniego：如果你想在周末读点长文 ↓↓↓ @adithya_s_k 撰写的强化学习环境终极指南 https://hug…

X AI KOLs Following

本文由 AdithyaSK 在 Hugging Face Space 上发布，分享了在大型语言模型（LLM）时代构建和扩展强化学习环境的全面指南。

@_djdumpling: Luke 是在 RL 基础设施方面最出色的人之一，绝对值得一读！

X AI KOLs Timeline

Luke J. Huang 的新博客文章调研了异步强化学习理论与基础设施，涵盖 8 家开放权重前沿实验室，并讨论了算法技术以及针对训练-推理不匹配的系统修复方案。

@adithya_s_k: https://x.com/adithya_s_k/status/2054961319179420035

X AI KOLs Timeline

分析为什么强化学习在编程任务中因可验证奖励而受到青睐，以及新兴框架Harbor如何解决RL训练中环境复杂度的瓶颈。

@jiqizhixin：太棒了！关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

X AI KOLs Timeline

一篇全面回顾推理型LLM强化学习现状的博文，涵盖从REINFORCE、PPO到GRPO乃至更多方法，并与InstructGPT、DeepSeek-R1等关键模型相联系。

RL 面试题 2026

算法

基础设施

相似文章

@Phoenixyin13: 强烈Recommend这个RL面试问题合集！ @sheriyuo 整理的35道RL benchmark，Algorithm+Infrastructure全覆盖，从PPO、GRPO的clip、KL penalty、advantage计算，到…

@SergioPaniego：如果你想在周末读点长文 ↓↓↓ @adithya_s_k 撰写的强化学习环境终极指南 https://hug…

@_djdumpling: Luke 是在 RL 基础设施方面最出色的人之一，绝对值得一读！

@adithya_s_k: https://x.com/adithya_s_k/status/2054961319179420035

@jiqizhixin：太棒了！关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

提交意见反馈