@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…

X AI KOLs Following 2026/05/15 17:00 产品

llm-post-training fine-tuning sft dpo grpo gpu-config anyscale

摘要

Anyscale 推出了一款新的 LLM 后训练 Agent Skill，可自动选择最优的微调方法（SFT、DPO、GRPO 等）并生成可随时启动的配置，帮助避免 GPU 运行浪费。

LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出 Anyscale Post Training skill，这是一款 Anyscale Agent Skill，可在运行开始前选择您的方法（SFT、DPO、GRPO、PPO），规划 GPU 内存，并生成可随时启动的配置。https://na2.hubs.ly/H05t71j0

查看原文

查看缓存全文

缓存时间: 2026/05/15 21:08

LLM后训练已成为新的基准。选错方法或GPU配置就可能浪费36小时的运行时间。Anyscale Post Training 技能（一种 Anyscale Agent Skill）应运而生，它能在运行开始前帮你选好方法（SFT、DPO、GRPO、PPO），规划GPU内存，并生成可直接启动的配置。 https://na2.hubs.ly/H05t71j0

推出 Anyscale LLM Post-Training 技能

来源：https://www.anyscale.com/blog/anyscale-llm-post-training-skill

今天我们正式推出/anyscale-workload-llm-post-training，这是 Anyscale Agent Skills (https://www.anyscale.com/blog/announcing-anyscale-agent-skills-ray) 的新成员，用于在 Anyscale 上规划和生成 LLM后训练 (https://docs.anyscale.com/llm/fine-tuning) 运行任务。给定模型、数据集、目标以及目标硬件后，该技能能帮助你在 SFT、继续预训练（CPT）、DPO/KTO/ORPO/SimPO 等偏好优化方法、经典 RLHF（PPO）以及 GRPO/DAPO 等 RLVR 方法之间做出选择。然后它会生成 LLaMA-Factory、SkyRL 或 Ray Train 的标准框架配置，并为 Anyscale Jobs (https://docs.anyscale.com/jobs) 做好准备。

链接

LLM后训练是新兴前沿——但也比以往更难https://www.anyscale.com/blog/anyscale-llm-post-training-skill#llm-post-training-is-the-new-frontier-%E2%80%94-but-harder-than-ever

LLM后训练经历了几个明显的发展阶段。第一个现代阶段是大规模指令微调/监督微调（SFT）和基于人类反馈的强化学习（RLHF）：OpenAI 的 InstructGPT (https://openai.com/blog/instruction-following) 表明，监督演示加上人类偏好排序可以让一个小型 GPT-3 模型比更大的基础模型显得更有用、更对齐，而 ChatGPT 则让这种方案被所有构建产品级 LLM 的人所熟悉。严格来说，RLHF 并非 InstructGPT 发明；更早的工作已使用人类反馈奖励模型处理语言任务。但 InstructGPT 使 RLHF 成为指令跟随 LLM 的参考架构：收集演示、从排序输出中训练奖励模型，然后优化策略（最常用的是 PPO（Proximal Policy Optimization））。

第二个阶段让对齐变得更便宜、更易操作。DPO、KTO、ORPO 和 SimPO 等偏好优化方法保留了人类偏好数据，但去掉了单独的在线 RL 循环，让团队能更直接地将模型推向期望的回答。DeepSeek-R1 (https://arxiv.org/abs/2501.12948) 标志着推理模型最新的重大转变。其成功推动了基于可验证奖励的强化学习（RLVR）的普及，例如 GRPO 和 DAPO，其中奖励来自程序化验证器而非学习的奖励模型：数学正确性、单元测试、精确匹配、SQL 执行或其他可以自动评分的检查方式。

这段历史解释了如今团队面临的方法菜单：SFT 用于教授新行为，DPO 类方法用于对齐偏好数据，RLHF 用于以人类偏好建模为核心的任务，GRPO/DAPO 类 RLVR 用于可自动检查的任务。

anyscale-llm-post-training-skill-image3

选择 RL 堆栈本身已成为一个工程问题。开源 LLM RL 库 (https://www.anyscale.com/blog/open-source-rl-libraries-for-llms) 的格局展示了后训练生态系统的碎片化速度之快：TRL、verl、OpenRLHF、RAGEN、NeMo-RL、ROLL、AReaL、Verifiers、SkyRL 和 slime 都针对重叠但不同的 RLHF、推理和智能体 RL 组合。正确的选择不仅取决于你是想要 PPO 还是 GRPO；还取决于生成器和环境抽象、训练后端、推理引擎、异步展开支持、权重同步以及编排模型。

一旦团队走出教程进入真正的后训练运行，复杂性就变得具体起来：

**方法论选择。**CPT、SFT、DPO、KTO、ORPO、PPO 还是 GRPO？每一种都有不同的数据形态、奖励模型需求和 GPU 配置文件。
**框架选择。**一个针对纯文本 RLHF 优化的库可能无法暴露工具使用智能体所需的环境层；一个高性能的栈可能将训练和生成放在同一位置，从而减少 GPU 使用但限制了展开的灵活性。选错起点可能意味着中途重写整个流水线。
**真正准确的 GPU 规划。**RLVR 设置可能需要多个驻留模型实例——例如，一个可训练策略、一个用于 KL 正则化的冻结参考模型、以及一个 vLLM 展开引擎。对于一个 bf16 的稠密 7B 模型，每个副本大约 14 GB，因此三个副本会产生约 42 GB 的权重内存开销，这还不包括优化器状态、激活值、KV 缓存和框架开销。对于 MoE 模型，即使每个 token 只有部分专家激活，总参数量仍然决定了权重内存。
**依赖地狱。**不匹配的 CUDA 工具包、未锁定版本的 torch wheel、DeepSpeed 兼容性约束、FSDP+QLoRA 数据类型要求，这些可能只在运行时才暴露。该技能会根据所选 Anyscale 运行环境锁定依赖，并在必要时标记出诸如 bnb_4bit_quant_storage=torch.bfloat16 等框架特定设置。

链接

我们构建的技能：与您共同做出艰难决策https://www.anyscale.com/blog/anyscale-llm-post-training-skill#what-we-built:-a-skill-that-makes-the-hard-decisions-with-you

/anyscale-workload-llm-post-training 引导 AI 编码智能体通过一个交互式、多项选择的需求流程，该流程模拟了 Anyscale Forward Deployed Engineer 规划 LLM 微调项目的方式——然后为所选 Anyscale 运行环境生成代码、配置和依赖。在编写任何代码之前，该技能会：

选择方法论——指令跟随选 SFT，无奖励模型的偏好优化选 DPO/SimPO/ORPO，可验证奖励任务选 GRPO/DAPO，需要奖励信号进行策略优化时选 PPO，工具使用选 agentic tuning。
推荐框架——SFT、CPT 和偏好优化选 LLaMA-Factory，RLVR 和智能体展开选 SkyRL，或自定义训练循环和奖励模型选 Ray Train，遵循《为 LLM 后训练选择框架》(https://docs.anyscale.com/llm/fine-tuning/comparison) 中描述的相同权衡。
验证模型-框架兼容性，检查框架的支持模型页面与你的基础模型（Llama、Qwen、Gemma、DeepSeek、Mistral 等）。
规划 GPU 内存和节点形状——包括多模型 RLVR 放置、MoE 权重计算、FSDP+QLoRA 数据类型对齐，以及在 accelerator_type（灵活调度）和 anyscale/accelerator_shape（对受益于固定本地拓扑的框架进行单节点放置）之间的权衡。
在启动前估算训练时间。一次 4×L4 上 36 小时的运行会在 开始之前 就展现出来，并附有更快 GPU 选项的对比表。
展示评估和检查点选择——验证数据集路径、检查点频率、工件存储以及框架原生的 eval 命令都会被捕获到生成的 README 中，而不会被忽略。
避免已知的版本陷阱——在需要时在 Dockerfile 中锁定与 CUDA 兼容的 torch wheel，考虑 LLaMA-Factory 和 DeepSpeed 的兼容性约束，并在作业开始前标记框架特定的 dtype 和调度器设置。

anyscale-llm-post-training-skill-image1

输出是一个带时间戳的 artifacts_dir/ 目录，包含原生框架脚本、YAML 配置、requirements.txt、必要时包含 Dockerfile，以及一个用于作为 Anyscale Job (https://docs.anyscale.com/jobs) 启动或在工作区中交互式运行的 README。由于该技能生成的是标准开源代码而非专有抽象，你保留对训练循环的完全控制。注意：该技能不能取代机器学习判断——团队仍需对数据集质量与标注 (https://docs.anyscale.com/llm/fine-tuning/data-preparation)、奖励设计、评估选择负责，并在启动会产生云成本的作业前进行最终批准。它的职责是在 GPU 开始运行之前，将设置、兼容性检查和运维脚手架明确呈现出来。

链接

没有技能 vs 有技能https://www.anyscale.com/blog/anyscale-llm-post-training-skill#without-the-skill-vs-with-the-skill

故障模式	无技能	有技能
方法与数据不匹配	首次运行后损失曲线平瘫才发现	根据用户偏好数据形态给出推荐
`torch` wheel 针对比节点驱动支持的更新的 CUDA 运行时构建	运行时 CUDA 不匹配	Torch wheel 锁定到所选 Anyscale 运行环境
RLVR 在 4×L40S 上 OOM——参考模型或展开引擎未预算	第一次展开花费数小时排查	启动前已估算多模型内存占用
在运行第 30 小时才发现需要 36 小时	计划被打乱	配置时便给出估计，并提供升级选项
FSDP 或 DeepSpeed 兼容性问题	训练从未开始	兼容性设置在生成的运行时配置中已表面化

链接

示例：使用 Agent Skill 在 GSM8K 上启动 GRPOhttps://www.anyscale.com/blog/anyscale-llm-post-training-skill#example:-launch-grpo-on-gsm8k-with-the-agent-skill

/anyscale-workload-llm-post-training train Qwen/Qwen3-1.7B-Instruct with GRPO on GSM8K data

您的浏览器不支持视频标签。

智能体收集需求，然后在生成任何文件之前先弹出确认摘要：

anyscale-llm-post-training-skill-image2

确认后，该技能写入一个带时间戳的工件目录，并移交给 /anyscale-platform-run，后者将其在 Anyscale 上启动（工作区用于交互式迭代，作业用于无人值守运行）。这个流程遵循 Anyscale Jobs 文档中描述的相同 GRPO with SkyRL (https://docs.anyscale.com/tutorials/train-llm-with-skyrl) 模式。

qwen25_7b_instruct_grpo_gsm8k_llm_posttraining_/ ├── README.md # 设置、监控、评估、LoRA/合并部署 ├── user_request_summary.txt # 冻结的配置 + 内存预算 + 时间估计 ├── workspace.yaml # SkyRL FSDP 镜像上的 4× L40S 单节点 ├── requirements.txt # 数据准备的额外依赖（镜像中已有其余部分） ├── prepare_data.py # 包装 SkyRL 的 gsm8k_dataset.py + 64 行试点切片 ├── run_train.sh # 启动训练过程的脚本

链接

使用 Anyscale Platform Skills 执行运行并解决错误https://www.anyscale.com/blog/anyscale-llm-post-training-skill#executing-runs-and-resolving-errors-with-the-anyscale-platform-skills

技能生成训练资产后，智能体会建议使用 /anyscale-platform-run 启动一次试点执行。这个短周期验证会在几分钟内检查模型加载、FSDP2 分片、vLLM 初始化、权重同步和奖励逻辑，在 你投入全量运行之前 就暴露出 OOM 错误或配置陷阱。试点成功后，智能体会提示你针对整个数据集启动生产训练作业。

当运行中途失败——无论是 NCCL 超时、检查点期间磁盘耗尽，还是损失曲线发散——平台无需手动 SSH 进节点或解析原始 Ray 日志。相反，/anyscale-platform-fix 可以分析活动作业的遥测、actor 日志和集群指标来诊断根因。该技能还能实时监控训练过程，检测诸如奖励信号一直为 0 等问题，并提出可操作的解决方案——例如调整奖励验证器逻辑或 vLLM 配置参数。然后它可以在你批准后重新启动环境或作业；训练完成后，技能可以自动将 LoRA 适配器合并回基础 LLM 权重。

链接

与其他 Agent Skills 组合使用https://www.anyscale.com/blog/anyscale-llm-post-training-skill#composes-with-other-agent-skills

后训练运行完成后，你可以通过利用 /anyscale-workload-llm-serving 技能将模型作为 Anyscale Service (https://docs.anyscale.com/llm/serving) 部署到生产中。

/anyscale-workload-llm-serving deploy [path_to_checkpoints] as a multi-LoRA endpoint

或者，你可以将 LoRA 适配器合并到基础权重中，并利用 /anyscale-workload-ray-data 技能编排大规模批量推理工作负载：

/anyscale-workload-llm-post-training merge lora adapter [path_to_checkpoints] to the base LLM and then use /anyscale-workload-ray-data to summarize PDFs in [path_to_pdf_files]

链接

开始使用https://www.anyscale.com/blog/anyscale-llm-post-training-skill#get-started

后训练技能随现有的 Agent Skills 版本一起发布，并通过 Anyscale Agent Skills 安装流程 (https://docs.anyscale.com/agent-skills/install) 安装。如果你在 anyscale skills list 中没有看到 /anyscale-workload-llm-post-training，请更新 Anyscale CLI 并确认该技能对你的组织可用。

资源：

Anyscale Agent Skills 文档 (https://docs.anyscale.com/agent-skills)
Anyscale 模板：Anyscale GRPO with SkyRL (https://console.anyscale.com/template-preview/skyrl)
Anyscale 模板：Anyscale Fine-tuning LLMs with LLaMA-Factory (https://console.anyscale.com/template-preview/llm_finetuning)
Anyscale 模板：Anyscale Fine-tune an LLM with Ray Train and DeepSpeed (https://console.anyscale.com/template-preview/deepspeed_finetune)
在 Anyscale 上进行 LLM 后训练 (https://docs.anyscale.com/llm/fine-tuning)
为什么要后训练你的 LLM (https://docs.anyscale.com/llm/fine-tuning/why-post-train)
LLM 后训练的数据集准备 (https://docs.anyscale.com/llm/fine-tuning/data-preparation)
为 LLM 后训练选择框架 (https://docs.anyscale.com/llm/fine-tuning/comparison)
在 LLM 上部署多 LoRA 适配器 (https://docs.anyscale.com/llm/serving/multi-lora)

@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…

推出 Anyscale LLM Post-Training 技能

链接

链接

链接

链接

链接

链接

链接

资源：

相似文章

@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…

@AlphaSignalAI：现在你可以在不训练的情况下，将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…

预训练期间的RL探索：重新审视LLM训练的策略优化

@songhan_mit: 探索简化 OPD 以高效进行 LLM 后训练：

LLM持续预训练中最佳超参数的可预测缩放规律

提交意见反馈