curriculum-learning

#curriculum-learning

避免想太多与想太少：面向课程感知的LLM预算调度

arXiv cs.CL ↗ · 2026-04-23 缓存

BACR通过自适应token预算与课程感知调度，防止LLM在简单题上想太多、在难题上想太少，token用量降低34%，准确率最高提升8.3%。

0 人收藏 0 人点赞

#curriculum-learning

LiFT：指令微调能否提升大语言模型的纵向建模上下文学习能力？

arXiv cs.CL ↗ · 2026-04-21 缓存

## 指令微调能否提升大语言模型的纵向建模上下文学习能力？来源：[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学（英国），²艾伦·图灵研究所（英国） {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要纵向NLP任务要求对时间有序的文本进行推理，以检测人类行为和观点的持续性和变化。然而，大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互，以及处理罕见变化事件的任务上存在困难。我们提出了LiFT，一个纵向指令微调框架，将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法，在逐步增加时间难度的同时融入少样本结构和时间条件化，以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型，在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型（OLMo（1B/7B）、LLaMA-8B和Qwen-14B）中，LiFT始终优于基线模型的上下文学习，在分布外数据和少数类变化事件上表现出显著的提升。

0 人收藏 0 人点赞

#curriculum-learning

通过工具监督强化学习实现视觉推理

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

提出 ToolsRL，一个两阶段强化学习框架，教多模态大模型使用简单视觉工具完成复杂视觉推理任务。

0 人收藏 0 人点赞

#curriculum-learning

CLewR：用于机器翻译偏好学习的课程学习与重启策略

arXiv cs.CL ↗ · 2026-04-20 缓存

CLewR引入了一种带重启的课程学习策略，用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题，在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。

0 人收藏 0 人点赞

#curriculum-learning

语言模型学习什么以及何时学习？隐性课程假设

Hugging Face Daily Papers ↗ · 2026-04-09 缓存

本文提出隐性课程假设，证明语言模型预训练遵循一个结构化的、组合性的课程，其中能力跨架构一致涌现，并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证，发现四个模型族中涌现顺序高度一致（ρ=0.81）。

0 人收藏 0 人点赞

#curriculum-learning

解决（部分）形式化数学奥林匹克问题

OpenAI Blog ↗ · 2022-02-02 缓存

# 解决（部分）形式化数学奥林匹克问题来源：[https://openai.com/index/formal-math/](https://openai.com/index/formal-math/) 我们在 [miniF2F](https://arxiv.org/abs/2109.00110) 基准测试上实现了新的最先进成果（41.2% vs 29.3%），这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为*语句课程学习*，包括手动收集一组难度级别不同的陈述（不含证明）

0 人收藏 0 人点赞

#curriculum-learning

变分选项发现算法

OpenAI Blog ↗ · 2018-07-26 缓存

OpenAI研究人员提出了VALOR，这是一种用于选项发现的变分推断方法，它将选项学习与变分自编码器联系起来，并提出了一种课程学习方法，通过动态增加上下文复杂性来稳定训练。

0 人收藏 0 人点赞

#curriculum-learning

后见之明经验回放

OpenAI Blog ↗ · 2017-07-05 缓存

# 后见之明经验回放来源：[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要处理稀疏奖励是强化学习（RL）中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术，它允许从稀疏二元奖励中进行样本高效学习，因此避免了复杂的奖励工程设计的需要。它可以与任意组合

0 人收藏 0 人点赞

#curriculum-learning

师生课程学习

OpenAI Blog ↗ · 2017-07-01 缓存

OpenAI 提出了师生课程学习（TSCL）框架，其中一个教师算法自动为学生选择子任务以学习复杂任务，基于学习曲线斜率进行优化并防止遗忘。该方法在十进制加法和 Minecraft 导航任务上与手工设计的课程相当或更优，使得之前无法通过直接训练实现的解决方案成为可能。

0 人收藏 0 人点赞

#curriculum-learning

神经 GPU 的扩展与局限性

OpenAI Blog ↗ · 2016-11-02 缓存

本文探讨了神经 GPU 模型的扩展与局限性，通过课程设计和规模扩展展示了改进方案，使其能够学习十进制数和长表达式的算术运算，同时识别出对称输入上的失败模式，这些模式类似于对抗样本。

0 人收藏 0 人点赞

curriculum-learning

提交意见反馈