标签
MiniMax 发布技术博客,深入分析其 M2 系列大模型在无法输出特定人名背后的系统性词表退化问题,揭示了预训练与后训练数据覆盖脱节导致的参数偏移,并提出了通过全量合成数据进行修复的有效方案。
This article recommends a UCLA-led online course on Reinforcement Learning for Large Language Models, covering theory, algorithms like PPO and RLHF, and practical coding exercises.
介绍 AwesomeOPD,一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。
加州大学助理教授Ernest K. Ryu推出《大语言模型的强化学习》开放课程,结合理论与实践全面解析RLHF、PPO/DPO等LLM训练关键技术及配套资源。该课程为开发者与研究者提供了从基础算法到实战部署的系统学习路径。
本文介绍了 ADAPT,这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性,在跨基准测试的泛化能力方面优于离线筛选和混合方法。
康奈尔研究者提出 POP 自博弈框架,让大模型自行生成评分规则与训练样本,在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B,无需人工标注。
研究者提出一种自动为常识知识语料添加否定信息的方法,生成逾200万条三元组,用于预训练可显著提升大模型对否定的理解。
Simon Willison 的链接帖介绍了一个名为“pelicans_riding_bicycles”的数据集或项目,可能用于 LLM 训练或生成式 AI 实验。
Karpathy 的 autoresearch 项目引发潮流:智能体训练 AI 模型构建最先进的智能体系统,同时暴露当前 LLM 在假设生成上的短板。
爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架,用于训练 LLMs 的语义等价推理能力,同步发布了 OpInstruct-HSx 数据集(28k 个程序),并在 EquiBench 上实现了 13.3 个百分点的准确率提升。
Hugging Face 和 Unsloth 提供免费额度和训练资源,让开发者可以通过 Hugging Face Jobs 微调 AI 模型。开发者可以训练小型语言模型(如 LFM2.5-1.2B-Instruct),实现 2 倍更快的训练速度和 60% 更低的 VRAM 占用,并可配合 Claude Code 和 Codex 等编程代理使用。
DeepLearning.AI 推出《Build with Andrew》课程,帮助零编程基础的用户在 30 分钟内利用 AI 构建 Web 应用;同时,最新研究聚焦大语言模型的透明度问题,涵盖模型诚实性与自动化科学研究能力等方向。