llm-training

#llm-training

@0xLogicrw: MiniMax 发布技术博客，披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发，最终揭示了一个波及整个词表近 5% 的系统性退化问题。根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段（预训练）用海…

X AI KOLs Timeline ↗ · 13小时前

MiniMax 发布技术博客，深入分析其 M2 系列大模型在无法输出特定人名背后的系统性词表退化问题，揭示了预训练与后训练数据覆盖脱节导致的参数偏移，并提出了通过全量合成数据进行修复的有效方案。

0 人收藏 0 人点赞

#llm-training

@NFTCPS: 加州大学这课，搞AI的都给我冲！理论+实战，把RL和LLM训练从零到一拆成渣。教你MDP、PPO算法、RLHF全流程，还有Jupyter代码实操。UCLA教授主讲，视频+作业都有，学完直接上手。课程地址：https://ernestr…

X AI KOLs Timeline ↗ · 14小时前缓存

This article recommends a UCLA-led online course on Reinforcement Learning for Large Language Models, covering theory, algorithms like PPO and RLHF, and practical coding exercises.

0 人收藏 0 人点赞

#llm-training

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline ↗ · 昨天缓存

介绍 AwesomeOPD，一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

0 人收藏 0 人点赞

#llm-training

@wsl8297: 加州大学开放课程《大语言模型的强化学习》，用“理论 + 实战”的方式，把 AI 训练的关键技术从零到一讲透，帮你系统建立从强化学习到 LLM 训练的完整框架。课程内容覆盖全面，配套资源齐全：讲座幻灯片、完整视频、实践练习一应俱全，学完就…

X AI KOLs Timeline ↗ · 昨天缓存

加州大学助理教授Ernest K. Ryu推出《大语言模型的强化学习》开放课程，结合理论与实践全面解析RLHF、PPO/DPO等LLM训练关键技术及配套资源。该课程为开发者与研究者提供了从基础算法到实战部署的系统学习路径。

0 人收藏 0 人点赞

#llm-training

重新思考大模型训练中的数据策展：在线重加权比离线方法具有更好的泛化能力

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 ADAPT，这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性，在跨基准测试的泛化能力方面优于离线筛选和混合方法。

0 人收藏 0 人点赞

#llm-training

基于预训练文本的自评规则自博弈，为开放式任务自举后训练信号

arXiv cs.CL ↗ · 2026-04-23 缓存

康奈尔研究者提出 POP 自博弈框架，让大模型自行生成评分规则与训练样本，在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B，无需人工标注。

0 人收藏 0 人点赞

#llm-training

带否定的常识知识：一种提升否定理解能力的资源

arXiv cs.CL ↗ · 2026-04-23 缓存

研究者提出一种自动为常识知识语料添加否定信息的方法，生成逾200万条三元组，用于预训练可显著提升大模型对否定的理解。

0 人收藏 0 人点赞

#llm-training

scosman/pelicans_riding_bicycles

Simon Willison's Blog ↗ · 2026-04-21 缓存

Simon Willison 的链接帖介绍了一个名为“pelicans_riding_bicycles”的数据集或项目，可能用于 LLM 训练或生成式 AI 实验。

0 人收藏 0 人点赞

#llm-training

@omarsar0：Karpathy 的 autoresearch 仓库掀起一股新风潮，智能体已能训练 AI 模型打造 SoTA 智能体系统……

X AI KOLs Following ↗ · 2026-04-21 缓存

Karpathy 的 autoresearch 项目引发潮流：智能体训练 AI 模型构建最先进的智能体系统，同时暴露当前 LLM 在假设生成上的短板。

0 人收藏 0 人点赞

#llm-training

# 结合语义等价自博弈与形式化验证提升 LLM 代码推理能力

arXiv cs.CL ↗ · 2026-04-21 缓存

爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架，用于训练 LLMs 的语义等价推理能力，同步发布了 OpInstruct-HSx 数据集（28k 个程序），并在 EquiBench 上实现了 13.3 个百分点的准确率提升。

0 人收藏 0 人点赞

#llm-training

使用 Unsloth 和 Hugging Face Jobs 免费训练 AI 模型

Hugging Face Blog ↗ · 2026-02-20 缓存

Hugging Face 和 Unsloth 提供免费额度和训练资源，让开发者可以通过 Hugging Face Jobs 微调 AI 模型。开发者可以训练小型语言模型（如 LFM2.5-1.2B-Instruct），实现 2 倍更快的训练速度和 60% 更低的 VRAM 占用，并可配合 Claude Code 和 Codex 等编程代理使用。

0 人收藏 0 人点赞

#llm-training

大语言模型“坦诚相告”、自动化科学研究、Copilot 用户真正想要什么、降低推理成本

The Batch ↗ · 2026-01-09 缓存

DeepLearning.AI 推出《Build with Andrew》课程，帮助零编程基础的用户在 30 分钟内利用 AI 构建 Web 应用；同时，最新研究聚焦大语言模型的透明度问题，涵盖模型诚实性与自动化科学研究能力等方向。

0 人收藏 0 人点赞

llm-training

提交意见反馈