curriculum-learning

#curriculum-learning

通过工具监督强化学习实现视觉推理

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

提出 ToolsRL，一个两阶段强化学习框架，教多模态大模型使用简单视觉工具完成复杂视觉推理任务。

0 人收藏 0 人点赞

#curriculum-learning

CLewR：用于机器翻译偏好学习的课程学习与重启策略

arXiv cs.CL ↗ · 2026-04-20 缓存

CLewR引入了一种带重启的课程学习策略，用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题，在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。

0 人收藏 0 人点赞

#curriculum-learning

语言模型学习什么以及何时学习？隐性课程假设

Hugging Face Daily Papers ↗ · 2026-04-09 缓存

本文提出隐性课程假设，证明语言模型预训练遵循一个结构化的、组合性的课程，其中能力跨架构一致涌现，并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证，发现四个模型族中涌现顺序高度一致（ρ=0.81）。

0 人收藏 0 人点赞

#curriculum-learning

# 解决（部分）形式化数学奥林匹克问题来源：[https://openai.com/index/formal-math/](https://openai.com/index/formal-math/) 我们在 [miniF2F](https://arxiv.org/abs/2109.00110) 基准测试上实现了新的最先进成果（41.2% vs 29.3%），这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为*语句课程学习*，包括手动收集一组难度级别不同的陈述（不含证明）

0 人收藏 0 人点赞

#curriculum-learning

变分选项发现算法

OpenAI Blog ↗ · 2018-07-26 缓存

OpenAI研究人员提出了VALOR，这是一种用于选项发现的变分推断方法，它将选项学习与变分自编码器联系起来，并提出了一种课程学习方法，通过动态增加上下文复杂性来稳定训练。

0 人收藏 0 人点赞

#curriculum-learning

后见之明经验回放

OpenAI Blog ↗ · 2017-07-05 缓存

# 后见之明经验回放来源：[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要处理稀疏奖励是强化学习（RL）中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术，它允许从稀疏二元奖励中进行样本高效学习，因此避免了复杂的奖励工程设计的需要。它可以与任意组合

0 人收藏 0 人点赞

#curriculum-learning

师生课程学习

OpenAI Blog ↗ · 2017-07-01 缓存

OpenAI 提出了师生课程学习（TSCL）框架，其中一个教师算法自动为学生选择子任务以学习复杂任务，基于学习曲线斜率进行优化并防止遗忘。该方法在十进制加法和 Minecraft 导航任务上与手工设计的课程相当或更优，使得之前无法通过直接训练实现的解决方案成为可能。

0 人收藏 0 人点赞

#curriculum-learning

神经 GPU 的扩展与局限性

OpenAI Blog ↗ · 2016-11-02 缓存

本文探讨了神经 GPU 模型的扩展与局限性，通过课程设计和规模扩展展示了改进方案，使其能够学习十进制数和长表达式的算术运算，同时识别出对称输入上的失败模式，这些模式类似于对抗样本。

0 人收藏 0 人点赞

curriculum-learning

提交意见反馈