标签
CLewR引入了一种带重启的课程学习策略,用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题,在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。
本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。
# 解决(部分)形式化数学奥林匹克问题 来源:[https://openai.com/index/formal-math/](https://openai.com/index/formal-math/) 我们在 [miniF2F](https://arxiv.org/abs/2109.00110) 基准测试上实现了新的最先进成果(41.2% vs 29.3%),这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为*语句课程学习*,包括手动收集一组难度级别不同的陈述(不含证明)
OpenAI研究人员提出了VALOR,这是一种用于选项发现的变分推断方法,它将选项学习与变分自编码器联系起来,并提出了一种课程学习方法,通过动态增加上下文复杂性来稳定训练。
# 后见之明经验回放 来源:[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要 处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术,它允许从稀疏二元奖励中进行样本高效学习,因此避免了复杂的奖励工程设计的需要。它可以与任意组合
OpenAI 提出了师生课程学习(TSCL)框架,其中一个教师算法自动为学生选择子任务以学习复杂任务,基于学习曲线斜率进行优化并防止遗忘。该方法在十进制加法和 Minecraft 导航任务上与手工设计的课程相当或更优,使得之前无法通过直接训练实现的解决方案成为可能。
本文探讨了神经 GPU 模型的扩展与局限性,通过课程设计和规模扩展展示了改进方案,使其能够学习十进制数和长表达式的算术运算,同时识别出对称输入上的失败模式,这些模式类似于对抗样本。