llm-training

#llm-training

保持旋转的有监督微调

arXiv cs.LG ↗ · 22小时前缓存

本文介绍了保持旋转的有监督微调（RPSFT），这是一种通过在微调过程中保持预训练奇异子空间中的投影旋转来提高域外泛化能力的方法。

0 人收藏 0 人点赞

#llm-training

从动作引导中学习智能体策略

arXiv cs.CL ↗ · 22小时前缓存

本文提出了 ActGuide-RL，这是一种利用人类动作数据作为指导来训练大语言模型（LLM）智能体策略的方法，旨在无需大量监督微调的情况下克服强化学习中的探索障碍。

0 人收藏 0 人点赞

#llm-training

YFPO：基于神经元引导奖励的耦合特征偏好优化在数学推理中的初步研究

arXiv cs.CL ↗ · 22小时前缓存

本文介绍了 YFPO，这是一种神经元引导的偏好优化框架，利用内部激活信号来提高大型语言模型在数学推理方面的能力。

0 人收藏 0 人点赞

#llm-training

冻结深层，训练浅层：持续预训练中可解释的层分配方法

arXiv cs.CL ↗ · 22小时前缓存

本文提出了 LayerTracer，这是一个用于持续预训练中参数层分配的可解释框架。研究表明，在冻结深层网络的同时仅训练浅层，其效果优于全参数微调。这为资源受限团队优化大语言模型提供了一种低成本且可操作的策略。

0 人收藏 0 人点赞

#llm-training

@songhan_mit: 探索简化 OPD 以高效进行 LLM 后训练：

X AI KOLs Following ↗ · 昨天

本文介绍了一种简化 OPD 以实现大语言模型高效后训练的方法。

0 人收藏 0 人点赞

#llm-training

利用推理框架进行训练：面向复杂推理的在策略框架自蒸馏

arXiv cs.CL ↗ · 昨天缓存

本文介绍了在策略框架自蒸馏（OPHSD），该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能，使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。

0 人收藏 0 人点赞

#llm-training

DataArc-SynData-Toolkit：用于多路径、多模态和多语言数据合成的统一闭环框架

arXiv cs.LG ↗ · 昨天缓存

本文介绍了 DataArc-SynData-Toolkit，这是一个开源框架，旨在简化多路径、多模态和多语言合成数据的生成。它通过统一的、基于配置的流水线，旨在降低技术门槛并提高在训练大型语言模型过程中的可用性。

0 人收藏 0 人点赞

#llm-training

Pion：一种通过正交等价变换保持谱的优化器

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了 Pion，这是一种用于大语言模型训练的的新型谱保持优化器。它利用正交等价变换在权重更新过程中维持奇异值，从而提供与标准优化器相当的稳定性能。

0 人收藏 0 人点赞

#llm-training

@UnslothAI: 我们很高兴地宣布 Unsloth 已加入 PyTorch 生态系统！Unsloth 是一个开源项目，能够让训…

X AI KOLs Following ↗ · 2天前缓存

Unsloth 是一款用于高效 LLM 训练和推理的开源库，现已正式加入 PyTorch 生态系统，以提升易用性和性能。公告重点介绍了 Unsloth Studio 等新功能以及优化后的内核，可降低 VRAM 使用量。

0 人收藏 0 人点赞

#llm-training

如何在强化学习后训练中压缩 KV 缓存？用于内存高效对齐的阴影掩码蒸馏

arXiv cs.LG ↗ · 2天前缓存

本文提出了阴影掩码蒸馏（SMD），旨在解决大语言模型在强化学习后训练中因 KV 缓存压缩而导致的离策略偏差。该方法引入了一种机制，确保在策略上的对齐，并提高长上下文推理任务的内存效率。

0 人收藏 0 人点赞

#llm-training

揭秘同策略蒸馏：其益处、危害及原因

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了一种无需训练的框架，用于分析推理模型在逐token级别上的蒸馏信号。研究揭示，蒸馏引导在错误推理路径上更为有效，且其效果取决于学生模型的能力及任务上下文。

0 人收藏 0 人点赞

#llm-training

G-Zero：从零数据开始的无界生成自博弈方法

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了 G-Zero，这是一个无需验证器的框架，通过基于内在奖励和提示引导的协同进化训练，实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号，克服代理 LLM 评判者在无界任务中的局限性。

0 人收藏 0 人点赞

#llm-training

叛逆的学生：通过自蒸馏 RLVR 反转教师信号以进行推理探索

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了 RLRT，这是一种在自蒸馏过程中反转教师信号的方法，旨在强化学生模型成功的偏离行为，从而增强大语言模型的推理探索能力。

0 人收藏 0 人点赞

#llm-training

分布视角下的 SFT、RL 与 On-Policy Distillation（19 分钟阅读）

TLDR AI ↗ · 3天前缓存

本文从分布视角分析语言模型的后训练方法，对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布，及其对灾难性遗忘等现象的影响。

0 人收藏 0 人点赞

#llm-training

@RohOnChain: Anthropic 为能训练大语言模型严格按提示执行的工程师支付每年 75 万美元以上的薪酬。斯坦福大学破解了……

X AI KOLs Timeline ↗ · 3天前缓存

文章声称，斯坦福大学发布了一种免费技术，用于训练大语言模型严格遵守提示，而这据称正是 Anthropic 高薪聘请的人才所具备的技能。文章敦促读者在资源被下架前收藏。

0 人收藏 0 人点赞

#llm-training

用 Swift 训练大语言模型，第一部分：将矩阵乘法从 Gflop/s 提升到 Tflop/s

Hacker News Top ↗ · 3天前缓存

作者详细介绍了在 Apple Silicon 上优化 Swift 自定义矩阵乘法内核以训练大语言模型的过程，旨在通过利用 CPU、SIMD、AMX 和 GPU 能力，实现超越 C 实现的性能。

0 人收藏 0 人点赞

#llm-training

@0xLogicrw: MiniMax 发布技术博客，披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发，最终揭示了一个波及整个词表近 5% 的系统性退化问题。根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段（预训练）用海…

X AI KOLs Timeline ↗ · 3天前

MiniMax 发布技术博客，深入分析其 M2 系列大模型在无法输出特定人名背后的系统性词表退化问题，揭示了预训练与后训练数据覆盖脱节导致的参数偏移，并提出了通过全量合成数据进行修复的有效方案。

0 人收藏 0 人点赞

#llm-training

@NFTCPS: 加州大学这课，搞AI的都给我冲！理论+实战，把RL和LLM训练从零到一拆成渣。教你MDP、PPO算法、RLHF全流程，还有Jupyter代码实操。UCLA教授主讲，视频+作业都有，学完直接上手。课程地址：https://ernestr…

X AI KOLs Timeline ↗ · 3天前缓存

This article recommends a UCLA-led online course on Reinforcement Learning for Large Language Models, covering theory, algorithms like PPO and RLHF, and practical coding exercises.

0 人收藏 0 人点赞

#llm-training

通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

Hugging Face Daily Papers ↗ · 4天前缓存

本文介绍了 Entrocraft，这是一种用于强化学习的拒绝采样方法，通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命，使较小规模的模型能够超越较大的基线模型。

0 人收藏 0 人点赞

#llm-training

几何冲突：解释并控制大模型持续后训练中的遗忘

Hugging Face Daily Papers ↗ · 4天前缓存

本研究探讨了任务几何如何影响大模型的持续后训练，识别出“几何冲突”是导致遗忘的原因，也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并（GCWM），该方法在各种规模的模型中均能提升保留率和性能。

0 人收藏 0 人点赞

llm-training

提交意见反馈