curriculum-learning

#curriculum-learning

流形赌博机：基于大语言模型潜在几何的贝叶斯课程学习

Hugging Face Daily Papers ↗ · 6天前缓存

介绍了一种名为 Bayesian Manifold Curriculum (BMC) 的自适应课程学习方法，用于大语言模型，该方法利用模型的潜在几何结构在不同问题类型之间分配训练资源，相比传统基于难度的课程学习提高了效率。

0 人收藏 0 人点赞

#curriculum-learning

Pythagoras-Prover：通过增强型Lean形式化方法推进高效形式化证明

arXiv cs.AI ↗ · 2026-06-12 缓存

Pythagoras-Prover 是一个计算高效的Lean定理证明器系列，通过课程监督微调和新颖的增强型Lean形式化技术实现了强劲性能。4B模型在MiniF2F-Test上以pass@32超越了DeepSeek-Prover-V2-671B，32B模型则在开源证明器中树立了新的最先进水平。

0 人收藏 0 人点赞

#curriculum-learning

Representation Curriculum: 分阶段训练以实现稳健排序与分配

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出Representation Curriculum (RC)，一种训练时干预方法，通过分阶段利用特征来减少对曝光混杂历史信号的过度依赖，并改善排序系统中的冷启动泛化能力。该方法经过了理论分析，并在公开基准和大规模eBay搜索实验中得到了验证。

0 人收藏 0 人点赞

#curriculum-learning

顺序至关重要：LLaMA的序列微调实现连贯的自动化作文评分

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分，结果表明与独立或随机训练相比，连贯性和性能均有提升。

0 人收藏 0 人点赞

#curriculum-learning

基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG ↗ · 2026-06-02 缓存

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明，一个双头Transformer可以实现深度优先搜索，并且在深度分阶段课程下，这种机制会自然地从稀疏奖励信号中涌现。

0 人收藏 0 人点赞

#curriculum-learning

定制课程：基于动态数据-模型兼容性的以学生为中心的推理蒸馏

arXiv cs.AI ↗ · 2026-05-29 缓存

提出数据-模型兼容性（DMC）指标，用于评估推理数据集在蒸馏过程中与学生模型的匹配程度。实验表明，DMC与蒸馏性能强相关，且基于DMC动态选择数据集可进一步提升推理能力。

0 人收藏 0 人点赞

#curriculum-learning

微宏观检索：减少大型语言模型的长文本幻觉

arXiv cs.CL ↗ · 2026-05-29 缓存

本文介绍了微宏观检索（M2R），一种边检索边生成的框架，通过确保关键信息紧邻生成文本，减少长文本LLM输出中的幻觉。它使用基于课程学习的强化学习来训练检索和接地技能，在长上下文场景中尤其有效。

0 人收藏 0 人点赞

#curriculum-learning

面向安全对齐的课程学习

arXiv cs.LG ↗ · 2026-05-27 缓存

本文提出Staged-Competence，一种基于课程学习的DPO安全对齐框架，它按难度组织偏好数据，显著提升鲁棒性和数据效率，同时保持通用能力。

0 人收藏 0 人点赞

#curriculum-learning

展示而非告知：可解释的AI生成文本检测

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

介绍TELL，一种AI生成文本检测系统，它在提供数值评分的同时给出可解释的标注，实现了具有竞争力的AUROC 0.927，并允许用户根据高亮的文本指标判断作者身份。

0 人收藏 0 人点赞

#curriculum-learning

训练数据教会强化学习记忆代理什么：记忆增强问答中课程效果的实证研究

arXiv cs.CL ↗ · 2026-05-25 缓存

本文实证研究了训练数据的组成（课程）如何影响基于强化学习的记忆代理在多会话问答中学到的技能。研究发现，课程组成作为专业化的细粒度杠杆，混合基准测试在整体性能上表现最佳，而狭窄的域外数据集则传递了有针对性的时间推理技能。

0 人收藏 0 人点赞

#curriculum-learning

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

arXiv cs.LG ↗ · 2026-05-22 缓存

本文提出了一种基于自定进度课程学习的即插即用模块，用于增强多模态对话情感识别中的模态平衡，在IEMOCAP和MELD数据集上实现了F1分数的一致提升。

0 人收藏 0 人点赞

#curriculum-learning

我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

Reddit r/MachineLearning ↗ · 2026-05-21

RPS是一种受神经科学启发的两阶段LLM后训练方法，结合了课程学习和学习率衰减。初步结果显示，与等学习率训练相比，在Qwen3-8b上程序合成可靠性得到提升。

0 人收藏 0 人点赞

#curriculum-learning

从推理链到可验证子问题：课程强化学习实现LLM推理的信用分配

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

SCRL是一个课程强化学习框架，通过子问题级归一化和课程学习改进LLM推理中的信用分配，在数学推理基准测试中优于基线。

0 人收藏 0 人点赞

#curriculum-learning

PROWL: 面向世界模型学习的优先遗憾驱动优化

arXiv cs.LG ↗ · 2026-05-20 缓存

介绍了一种优先遗憾驱动优化框架PROWL，该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性，在MineRL中的分布外场景上取得了更好的性能。

0 人收藏 0 人点赞

#curriculum-learning

从看到思考：解耦感知与推理改进视觉语言模型的后训练

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

本文提出一种分阶段训练方法，将视觉感知、视觉推理和文本推理分离为不同阶段。该方法提高了视觉推理准确性，同时缩短了推理链条长度，表明更强的感知能力可减少对过度推理的需求。

0 人收藏 0 人点赞

#curriculum-learning

基于空间相关性的物理信息神经网络课程学习

arXiv cs.LG ↗ · 2026-05-18 缓存

本文提出了一种基于空间相关性的物理信息神经网络（PINNs）课程学习框架，通过利用子区域间的空间相关性来提高训练稳定性和求解精度，解决了高维非凸损失景观和多目标约束不平衡等问题。

0 人收藏 0 人点赞

#curriculum-learning

VectraYX-Nano：一个42M参数的西班牙语网络安全语言模型，具备课程学习与原生工具调用能力

arXiv cs.CL ↗ · 2026-05-15 缓存

介绍了VectraYX-Nano，一个从零开始训练的42M参数仅解码器西班牙语网络安全语言模型，具备课程学习、通过MCP的原生工具调用以及一个1.7亿词元的语料库。实证发现揭示了损失-寄存器反转以及工具使用能力的语料密度伪影。

0 人收藏 0 人点赞

#curriculum-learning

@stingning：我们正在发布一个30B-A3B推理模型，该模型在物理和数学奥林匹克评估中达到了金牌水平……

X AI KOLs Timeline ↗ · 2026-05-15 缓存

研究人员发布了SU-01，这是一个30B-A3B推理模型，在物理和数学奥林匹克问题上达到了金牌水平，使用了一种统一的证明搜索缩放方法。

0 人收藏 0 人点赞

#curriculum-learning

避免想太多与想太少：面向课程感知的LLM预算调度

arXiv cs.CL ↗ · 2026-04-23 缓存

BACR通过自适应token预算与课程感知调度，防止LLM在简单题上想太多、在难题上想太少，token用量降低34%，准确率最高提升8.3%。

0 人收藏 0 人点赞

#curriculum-learning

LiFT：指令微调能否提升大语言模型的纵向建模上下文学习能力？

arXiv cs.CL ↗ · 2026-04-21 缓存

## 指令微调能否提升大语言模型的纵向建模上下文学习能力？来源：[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学（英国），²艾伦·图灵研究所（英国） {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要纵向NLP任务要求对时间有序的文本进行推理，以检测人类行为和观点的持续性和变化。然而，大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互，以及处理罕见变化事件的任务上存在困难。我们提出了LiFT，一个纵向指令微调框架，将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法，在逐步增加时间难度的同时融入少样本结构和时间条件化，以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型，在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型（OLMo（1B/7B）、LLaMA-8B和Qwen-14B）中，LiFT始终优于基线模型的上下文学习，在分布外数据和少数类变化事件上表现出显著的提升。

0 人收藏 0 人点赞

curriculum-learning

提交意见反馈