nccd

标签

Cards List
#nccd

我在verl(一个RL后训练框架)里沉浸了数月,复刻了它,然后停止。写下了内部机制、复刻所需的工具开销以及一个棘手的NCCL错误。

Reddit r/LocalLLaMA · 2天前

深入探讨字节跳动verl强化学习后训练框架的内部机制,包括编排、单控制器模式以及一个棘手的NCCL错误修复。作者分享了复刻该框架和构建自定义工具的经验教训。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈