@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…
摘要
Anyscale 推出了一款新的 LLM 后训练 Agent Skill,可自动选择最优的微调方法(SFT、DPO、GRPO 等)并生成可随时启动的配置,帮助避免 GPU 运行浪费。
查看缓存全文
缓存时间: 2026/05/15 21:08
LLM后训练已成为新的基准。选错方法或GPU配置就可能浪费36小时的运行时间。Anyscale Post Training 技能(一种 Anyscale Agent Skill)应运而生,它能在运行开始前帮你选好方法(SFT、DPO、GRPO、PPO),规划GPU内存,并生成可直接启动的配置。 https://na2.hubs.ly/H05t71j0
推出 Anyscale LLM Post-Training 技能
来源:https://www.anyscale.com/blog/anyscale-llm-post-training-skill
今天我们正式推出/anyscale-workload-llm-post-training,这是 Anyscale Agent Skills (https://www.anyscale.com/blog/announcing-anyscale-agent-skills-ray) 的新成员,用于在 Anyscale 上规划和生成 LLM后训练 (https://docs.anyscale.com/llm/fine-tuning) 运行任务。给定模型、数据集、目标以及目标硬件后,该技能能帮助你在 SFT、继续预训练(CPT)、DPO/KTO/ORPO/SimPO 等偏好优化方法、经典 RLHF(PPO)以及 GRPO/DAPO 等 RLVR 方法之间做出选择。然后它会生成 LLaMA-Factory、SkyRL 或 Ray Train 的标准框架配置,并为 Anyscale Jobs (https://docs.anyscale.com/jobs) 做好准备。
链接
LLM后训练是新兴前沿——但也比以往更难https://www.anyscale.com/blog/anyscale-llm-post-training-skill#llm-post-training-is-the-new-frontier-%E2%80%94-but-harder-than-ever
LLM后训练经历了几个明显的发展阶段。第一个现代阶段是大规模指令微调/监督微调(SFT)和基于人类反馈的强化学习(RLHF):OpenAI 的 InstructGPT (https://openai.com/blog/instruction-following) 表明,监督演示加上人类偏好排序可以让一个小型 GPT-3 模型比更大的基础模型显得更有用、更对齐,而 ChatGPT 则让这种方案被所有构建产品级 LLM 的人所熟悉。严格来说,RLHF 并非 InstructGPT 发明;更早的工作已使用人类反馈奖励模型处理语言任务。但 InstructGPT 使 RLHF 成为指令跟随 LLM 的参考架构:收集演示、从排序输出中训练奖励模型,然后优化策略(最常用的是 PPO(Proximal Policy Optimization))。
第二个阶段让对齐变得更便宜、更易操作。DPO、KTO、ORPO 和 SimPO 等偏好优化方法保留了人类偏好数据,但去掉了单独的在线 RL 循环,让团队能更直接地将模型推向期望的回答。DeepSeek-R1 (https://arxiv.org/abs/2501.12948) 标志着推理模型最新的重大转变。其成功推动了基于可验证奖励的强化学习(RLVR)的普及,例如 GRPO 和 DAPO,其中奖励来自程序化验证器而非学习的奖励模型:数学正确性、单元测试、精确匹配、SQL 执行或其他可以自动评分的检查方式。
这段历史解释了如今团队面临的方法菜单:SFT 用于教授新行为,DPO 类方法用于对齐偏好数据,RLHF 用于以人类偏好建模为核心的任务,GRPO/DAPO 类 RLVR 用于可自动检查的任务。
anyscale-llm-post-training-skill-image3
选择 RL 堆栈本身已成为一个工程问题。开源 LLM RL 库 (https://www.anyscale.com/blog/open-source-rl-libraries-for-llms) 的格局展示了后训练生态系统的碎片化速度之快:TRL、verl、OpenRLHF、RAGEN、NeMo-RL、ROLL、AReaL、Verifiers、SkyRL 和 slime 都针对重叠但不同的 RLHF、推理和智能体 RL 组合。正确的选择不仅取决于你是想要 PPO 还是 GRPO;还取决于生成器和环境抽象、训练后端、推理引擎、异步展开支持、权重同步以及编排模型。
一旦团队走出教程进入真正的后训练运行,复杂性就变得具体起来:
- **方法论选择。**CPT、SFT、DPO、KTO、ORPO、PPO 还是 GRPO?每一种都有不同的数据形态、奖励模型需求和 GPU 配置文件。
- **框架选择。**一个针对纯文本 RLHF 优化的库可能无法暴露工具使用智能体所需的环境层;一个高性能的栈可能将训练和生成放在同一位置,从而减少 GPU 使用但限制了展开的灵活性。选错起点可能意味着中途重写整个流水线。
- **真正准确的 GPU 规划。**RLVR 设置可能需要多个驻留模型实例——例如,一个可训练策略、一个用于 KL 正则化的冻结参考模型、以及一个 vLLM 展开引擎。对于一个 bf16 的稠密 7B 模型,每个副本大约 14 GB,因此三个副本会产生约 42 GB 的权重内存开销,这还不包括优化器状态、激活值、KV 缓存和框架开销。对于 MoE 模型,即使每个 token 只有部分专家激活,总参数量仍然决定了权重内存。
- **依赖地狱。**不匹配的 CUDA 工具包、未锁定版本的
torchwheel、DeepSpeed 兼容性约束、FSDP+QLoRA 数据类型要求,这些可能只在运行时才暴露。该技能会根据所选 Anyscale 运行环境锁定依赖,并在必要时标记出诸如bnb_4bit_quant_storage=torch.bfloat16等框架特定设置。
链接
我们构建的技能:与您共同做出艰难决策https://www.anyscale.com/blog/anyscale-llm-post-training-skill#what-we-built:-a-skill-that-makes-the-hard-decisions-with-you
/anyscale-workload-llm-post-training 引导 AI 编码智能体通过一个交互式、多项选择的需求流程,该流程模拟了 Anyscale Forward Deployed Engineer 规划 LLM 微调项目的方式——然后为所选 Anyscale 运行环境生成代码、配置和依赖。在编写任何代码之前,该技能会:
- 选择方法论——指令跟随选 SFT,无奖励模型的偏好优化选 DPO/SimPO/ORPO,可验证奖励任务选 GRPO/DAPO,需要奖励信号进行策略优化时选 PPO,工具使用选 agentic tuning。
- 推荐框架——SFT、CPT 和偏好优化选 LLaMA-Factory,RLVR 和智能体展开选 SkyRL,或自定义训练循环和奖励模型选 Ray Train,遵循《为 LLM 后训练选择框架》(https://docs.anyscale.com/llm/fine-tuning/comparison) 中描述的相同权衡。
- 验证模型-框架兼容性,检查框架的支持模型页面与你的基础模型(Llama、Qwen、Gemma、DeepSeek、Mistral 等)。
- 规划 GPU 内存和节点形状——包括多模型 RLVR 放置、MoE 权重计算、FSDP+QLoRA 数据类型对齐,以及在
accelerator_type(灵活调度)和anyscale/accelerator_shape(对受益于固定本地拓扑的框架进行单节点放置)之间的权衡。 - 在启动前估算训练时间。一次 4×L4 上 36 小时的运行会在 开始之前 就展现出来,并附有更快 GPU 选项的对比表。
- 展示评估和检查点选择——验证数据集路径、检查点频率、工件存储以及框架原生的 eval 命令都会被捕获到生成的 README 中,而不会被忽略。
- 避免已知的版本陷阱——在需要时在 Dockerfile 中锁定与 CUDA 兼容的 torch wheel,考虑 LLaMA-Factory 和 DeepSpeed 的兼容性约束,并在作业开始前标记框架特定的 dtype 和调度器设置。
anyscale-llm-post-training-skill-image1
输出是一个带时间戳的 artifacts_dir/ 目录,包含原生框架脚本、YAML 配置、requirements.txt、必要时包含 Dockerfile,以及一个用于作为 Anyscale Job (https://docs.anyscale.com/jobs) 启动或在工作区中交互式运行的 README。由于该技能生成的是标准开源代码而非专有抽象,你保留对训练循环的完全控制。
注意:该技能不能取代机器学习判断——团队仍需对 数据集质量与标注 (https://docs.anyscale.com/llm/fine-tuning/data-preparation)、奖励设计、评估选择负责,并在启动会产生云成本的作业前进行最终批准。它的职责是在 GPU 开始运行之前,将设置、兼容性检查和运维脚手架明确呈现出来。
链接
没有技能 vs 有技能https://www.anyscale.com/blog/anyscale-llm-post-training-skill#without-the-skill-vs-with-the-skill
| 故障模式 | 无技能 | 有技能 |
|---|---|---|
| 方法与数据不匹配 | 首次运行后损失曲线平瘫才发现 | 根据用户偏好数据形态给出推荐 |
torch wheel 针对比节点驱动支持的更新的 CUDA 运行时构建 | 运行时 CUDA 不匹配 | Torch wheel 锁定到所选 Anyscale 运行环境 |
| RLVR 在 4×L40S 上 OOM——参考模型或展开引擎未预算 | 第一次展开花费数小时排查 | 启动前已估算多模型内存占用 |
| 在运行第 30 小时才发现需要 36 小时 | 计划被打乱 | 配置时便给出估计,并提供升级选项 |
| FSDP 或 DeepSpeed 兼容性问题 | 训练从未开始 | 兼容性设置在生成的运行时配置中已表面化 |
链接
示例:使用 Agent Skill 在 GSM8K 上启动 GRPOhttps://www.anyscale.com/blog/anyscale-llm-post-training-skill#example:-launch-grpo-on-gsm8k-with-the-agent-skill
/anyscale-workload-llm-post-training train Qwen/Qwen3-1.7B-Instruct with GRPO on GSM8K data
您的浏览器不支持视频标签。
智能体收集需求,然后在生成任何文件之前先弹出确认摘要:
anyscale-llm-post-training-skill-image2
确认后,该技能写入一个带时间戳的工件目录,并移交给 /anyscale-platform-run,后者将其在 Anyscale 上启动(工作区用于交互式迭代,作业用于无人值守运行)。这个流程遵循 Anyscale Jobs 文档中描述的相同 GRPO with SkyRL (https://docs.anyscale.com/tutorials/train-llm-with-skyrl) 模式。
qwen25_7b_instruct_grpo_gsm8k_llm_posttraining_/ ├── README.md # 设置、监控、评估、LoRA/合并部署 ├── user_request_summary.txt # 冻结的配置 + 内存预算 + 时间估计 ├── workspace.yaml # SkyRL FSDP 镜像上的 4× L40S 单节点 ├── requirements.txt # 数据准备的额外依赖(镜像中已有其余部分) ├── prepare_data.py # 包装 SkyRL 的 gsm8k_dataset.py + 64 行试点切片 ├── run_train.sh # 启动训练过程的脚本
链接
使用 Anyscale Platform Skills 执行运行并解决错误https://www.anyscale.com/blog/anyscale-llm-post-training-skill#executing-runs-and-resolving-errors-with-the-anyscale-platform-skills
技能生成训练资产后,智能体会建议使用 /anyscale-platform-run 启动一次试点执行。这个短周期验证会在几分钟内检查模型加载、FSDP2 分片、vLLM 初始化、权重同步和奖励逻辑,在 你投入全量运行之前 就暴露出 OOM 错误或配置陷阱。试点成功后,智能体会提示你针对整个数据集启动生产训练作业。
当运行中途失败——无论是 NCCL 超时、检查点期间磁盘耗尽,还是损失曲线发散——平台无需手动 SSH 进节点或解析原始 Ray 日志。相反,/anyscale-platform-fix 可以分析活动作业的遥测、actor 日志和集群指标来诊断根因。该技能还能实时监控训练过程,检测诸如奖励信号一直为 0 等问题,并提出可操作的解决方案——例如调整奖励验证器逻辑或 vLLM 配置参数。然后它可以在你批准后重新启动环境或作业;训练完成后,技能可以自动将 LoRA 适配器合并回基础 LLM 权重。
链接
与其他 Agent Skills 组合使用https://www.anyscale.com/blog/anyscale-llm-post-training-skill#composes-with-other-agent-skills
后训练运行完成后,你可以通过利用 /anyscale-workload-llm-serving 技能将模型作为 Anyscale Service (https://docs.anyscale.com/llm/serving) 部署到生产中。
/anyscale-workload-llm-serving deploy [path_to_checkpoints] as a multi-LoRA endpoint
或者,你可以将 LoRA 适配器合并到基础权重中,并利用 /anyscale-workload-ray-data 技能编排大规模批量推理工作负载:
/anyscale-workload-llm-post-training merge lora adapter [path_to_checkpoints] to the base LLM and then use /anyscale-workload-ray-data to summarize PDFs in [path_to_pdf_files]
链接
开始使用https://www.anyscale.com/blog/anyscale-llm-post-training-skill#get-started
后训练技能随现有的 Agent Skills 版本一起发布,并通过 Anyscale Agent Skills 安装流程 (https://docs.anyscale.com/agent-skills/install) 安装。如果你在 anyscale skills list 中没有看到 /anyscale-workload-llm-post-training,请更新 Anyscale CLI 并确认该技能对你的组织可用。
资源:
- Anyscale Agent Skills 文档 (https://docs.anyscale.com/agent-skills)
- Anyscale 模板:Anyscale GRPO with SkyRL (https://console.anyscale.com/template-preview/skyrl)
- Anyscale 模板:Anyscale Fine-tuning LLMs with LLaMA-Factory (https://console.anyscale.com/template-preview/llm_finetuning)
- Anyscale 模板:Anyscale Fine-tune an LLM with Ray Train and DeepSpeed (https://console.anyscale.com/template-preview/deepspeed_finetune)
- 在 Anyscale 上进行 LLM 后训练 (https://docs.anyscale.com/llm/fine-tuning)
- 为什么要后训练你的 LLM (https://docs.anyscale.com/llm/fine-tuning/why-post-train)
- LLM 后训练的数据集准备 (https://docs.anyscale.com/llm/fine-tuning/data-preparation)
- 为 LLM 后训练选择框架 (https://docs.anyscale.com/llm/fine-tuning/comparison)
- 在 LLM 上部署多 LoRA 适配器 (https://docs.anyscale.com/llm/serving/multi-lora)
相似文章
@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。
@AlphaSignalAI:现在你可以在不训练的情况下,将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…
OptiLLM是一个开源代理,通过在推理时增加额外计算,将任意LLM的准确率提升2-10倍,使用了多智能体交叉验证和蒙特卡洛树搜索等技术。
预训练期间的RL探索:重新审视LLM训练的策略优化
哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。
@songhan_mit: 探索简化 OPD 以高效进行 LLM 后训练:
本文介绍了一种简化 OPD 以实现大语言模型高效后训练的方法。
LLM持续预训练中最佳超参数的可预测缩放规律
本文发现了LLM持续预训练中最佳超参数(学习率、批量大小)的可预测缩放规律,提出了一个两阶段框架,可将超参数搜索开销降低高达90%,同时保持性能。