training-method

#training-method

DHRCL:训练代码LLM的密集分层奖励与课程学习

arXiv cs.LG ↗ · 2天前缓存

DHRCL提出了一种结合密集分层奖励与课程学习的强化学习框架，用于训练代码LLM。该框架在三个阶段的课程中，利用语法验证、执行成功、单元测试通过率和AST结构相似性作为反馈信号。

0 人收藏 0 人点赞

#training-method

arXiv cs.LG ↗ · 2026-07-13 缓存

StickyMoE提出了一种可微的路由一致性损失函数，鼓励相邻token在MoE模型中激活相同的专家，从而在边缘设备推理过程中将专家交换开销和缓存未命中率降低高达3.92倍，同时改善困惑度。

0 人收藏 0 人点赞

#training-method

arXiv cs.AI ↗ · 2026-07-03 缓存

本文提出AUF（接受直到失败），这是一种针对推测解码中掩码块草稿模型的交叉熵损失的简单修改，它将监督限制到第一个预测失败之前的词缀，在不改变推理的情况下提升了多个基准测试的平均生成长度。

0 人收藏 0 人点赞

#training-method

arXiv cs.LG ↗ · 2026-06-29 缓存

提出StoMPP，一种针对二值神经网络的逐层渐进冻结训练框架，从输入到输出逐步对层进行二值化，在不依赖直通估计器的情况下，相比普通STE实现了显著的精度提升，并在多种架构和任务中表现出一致的增益。

0 人收藏 0 人点赞

#training-method

Reddit r/artificial ↗ · 2026-06-17

来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型，这归因于精心构建的训练数据和自我验证技术，而非原始规模，表明AI能力发展趋向更民主化。

0 人收藏 0 人点赞

#training-method

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

GDSD提出了一种强化学习方法，直接从优势引导的自教师中蒸馏扩散语言模型的降噪器，避免了基于ELBO的似然代理带来的偏差。在规划、数学和编码基准上，比先前最先进的方法准确率提升高达+19.6%。

0 人收藏 0 人点赞

#training-method

X AI KOLs Following ↗ · 2026-05-20 缓存

动态微调（DFT）被介绍为一种方法，它利用模型自身的 token 概率重新加权 SFT 损失，形成一个反馈循环，并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑，但赞赏这一尝试。

0 人收藏 0 人点赞

#training-method

X AI KOLs Timeline ↗ · 2026-05-17 缓存

这条推文介绍了Fast-Slow Training (FST)，一种新的持续学习方法，将模型参数视为慢权重，优化上下文视为快权重，据称在数学、代码和通用推理基准测试上全面优于仅权重训练。

0 人收藏 0 人点赞