asynchronous-training

#asynchronous-training

回溯优势校正：面向延迟感知RLHF的闭合形式V-Trace偏差校正

arXiv cs.LG ↗ · 2026-06-29 缓存

本文介绍了Retroactive Advantage Correction (RAC)，这是一种用于延迟感知RLHF的闭合形式偏差校正方法，通过将延迟奖励排队并使用V-trace风格的裁剪残差更新重新注入，来处理异步奖励信号。

0 人收藏 0 人点赞

#asynchronous-training

arXiv cs.LG ↗ · 2026-06-24 缓存

本文提出 AsyncOPD，一种完全异步的在策略蒸馏流程，用于大语言模型，系统研究了陈旧策略数据的影响，并提出了估计器设计，使训练吞吐量提升 1.6-3.8 倍，同时保持相当的准确率。

0 人收藏 0 人点赞

#asynchronous-training

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文探讨了大型语言模型（LLM）异步强化学习中的旧 logits 缺失问题，提出了精确与近似的修正方法，以提升训练稳定性和性能。

0 人收藏 0 人点赞