@snowboat84: https://x.com/snowboat84/status/2065215177029787705

X AI KOLs Timeline 2026/06/11 23:30 新闻

摘要

本文是AI工程全景系列的中篇，详细介绍了推理优化、模型瘦身（量化、蒸馏、剪枝、MoE）和投机解码等核心技术，综述了从硬件到工程栈的最新进展。

https://t.co/EqEQqK48Dj

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:49

人工智能的工程全景（中）：推理，后训练，对齐和安全

上篇七章首先讲了AI工程栈的运行态：从1990年代的游戏显卡到2026年的万卡集群、从晶圆和HBM到核电和SMR、从4D并行到KV cache和PagedAttention。一条主线串起来就是“硬件怎么来、电力怎么供、模型怎么训、推理怎么跑“：

https://x.com/snowboat84/status/2061962883651731602

接着，上篇的推理写到PagedAttention和PD分离，后面还有一大块推理优化的工程没讲。这篇接着上篇，继续介绍推理，然后转到模型之外的另一半第一面：模型本身怎么被改造（后训练、对齐、安全）。

一、推理优化速成：接着上篇继续讲

先简单回顾一下“推理“是什么。训练（training）是给模型喂数据让它学参数的过程，跑一次几个月、用万卡集群、烧几亿美元。推理（inference）是模型已经训好了、部署到服务上让真实用户用，每个请求是用户输入一段prompt、模型生成回答。两者在工程上是两套完全不同的栈，训练拼“能不能在合理时间内训完一个SOTA模型“，推理拼“每秒能服务多少用户、单token成本多少、延迟多少“。一家AI公司的产品体验和单位经济学，主要由推理这一层决定。

上篇第六和第七章讲了推理的基本结构。用户的prompt进来后先走prefill阶段一次性处理整段输入，然后进decode阶段一个token一个token往外吐。中间KV cache把已经算过的注意力状态存下来避免重复计算，PagedAttention把KV cache像操作系统的虚拟内存一样分页管理减少碎片，批处理把多个并发请求合在一起喂给GPU提高吞吐，PD分离把prefill和decode拆到不同硬件配置上各自优化。这些是推理的地基。

这一章接着往下讲生产级推理涉及的另外几块工程，分六节展开，每节只点核心机制和典型数据。

1.1 模型瘦身：量化、蒸馏、剪枝、MoE

模型瘦身的目标很直接：把模型本身做小，让推理服务更便宜更快。LLM推理真正卡的是显存带宽，decode每生成一个token都要把整个权重从HBM搬到GPU计算单元过一遍，70B模型用FP16存是140 GB搬动量。权重小一半，单token延迟跟着减一半，同样硬件还能多塞几个并发请求拉高吞吐，原本要多卡跑的模型甚至能塞进单卡。

下面四类技术（量化、蒸馏、剪枝、MoE）目的相同，但发生阶段不同。量化主要是训练完之后做一次性转换。蒸馏和剪枝是独立的训练过程，要重新跑一遍训练才能产出小模型。MoE是模型架构选择，base model训练时就决定了。它们都不在推理时自动发生，全部是事先把模型做小，让后续推理受益。业内按目的把这一组合起来讲，这一章也照这个分法走。

1.1.1 量化（quantization）

量化把模型权重从默认的FP16/BF16（16位浮点）压到更少比特表示。常见阶梯是FP8（显存减半）、INT4或FP4（显存减到四分之一）。

主流的训练后量化算法有三家。GPTQ用二阶Hessian信息逐列量化，每列量化后调整后面列补偿误差，2023年起是开源社区事实标准。AWQ（Activation-aware Weight Quantization）观察到激活值大的位置对量化更敏感，专门保护那些位置的权重，许多场景精度优于GPTQ。SmoothQuant用数学变换把激活值的离群值转移到权重上，让两边都更容易量化。三种算法的共同对手都是激活值的离群值，少数极端大的激活值会毁掉整个量化，各种算法本质上都在跟它斗。

FP4这条线在Blackwell之后进入主流硬件路线。英伟达定义的NVFP4和开放标准MXFP4两种格式并存，Blackwell架构原生支持FP4计算。FP4能把70B模型的权重本身从140 GB量级降到35 GB量级，但实际推理还要叠加KV cache、activation、runtime等开销，能不能在单卡跑生产要看具体场景和上下文长度。代价是精度损失风险更高，激进低精度场景一般要走QAT（量化感知训练），训练阶段就模拟量化的精度损失让模型适应。QAT比PTQ精度好但成本高。

1.1.2 蒸馏（distillation）：Teacher-Student 范式

蒸馏的设置很简单：让一个大模型当老师（teacher），去训一个小模型当学生（student）。

Teacher一般是参数大、能力强、推理贵的现成强模型。Student是要训出来的小模型，参数小、推理便宜、能力还没到位。训练过程让teacher对一批prompt生成回答，student拿着teacher的输出去学。但student学到的远不止“token序列“这层表面。真正关键的是teacher在每个生成位置上的完整概率分布（next-token logits）。

举个例子，teacher看到“今天天气“这个上下文，给“很好“打0.4概率、“不错“打0.3、“晴朗“打0.15、其他词加起来0.15。如果student只学最后选了哪个词（“很好”），它就丢失了一个重要信息：teacher知道“不错““晴朗“也是合理选项。蒸馏的关键是让student直接拟合teacher的整个概率分布，这样小模型学到的就不只是teacher的答案，还有teacher的“判断分布”，也就是teacher的某种implicit knowledge。

这就是为什么蒸馏出来的小模型，能在参数缩到原模型几分之一甚至十分之一的情况下保留大部分能力。它学到的是teacher在每个位置的判断空间，而不只是teacher的某次具体输出。这种范式2015年Hinton提出（论文叫《Distilling the Knowledge in a Neural Network》），到LLM时代成了工业界标准做法。GPT-4蒸馏到GPT-4o-mini、Claude 3 Opus蒸馏到Haiku，业内通说都是这条路（具体配方各家保密）。

蒸馏出的小模型有两种用法。一是独立部署做低成本服务版本，给那些用GPT-4太贵的场景用。二是当投机解码的草稿模型，1.2节会讲。

1.1.3 剪枝（pruning）与 NAS

剪枝的思路是把模型里不太起作用的权重或神经元去掉，让模型变小。判断“哪些不重要“和“以多粗的颗粒度删“都有一套方法（看权重值、看梯度、看激活频率，删单个权重或者删整个attention head和整层），但工程上单跑剪枝效果有限，因为模型权重之间有强依赖，粗暴删一部分会让剩下的也跟着掉性能。

所以工业实践很少单跑剪枝，常见做法是跟蒸馏、量化叠加。NVIDIA Minitron和Puzzletron项目走的就是“剪枝加蒸馏加FP8“的组合拳，先剪掉一部分结构，再用原模型当teacher把损失的能力蒸馏补回来，最后用FP8部署。

NAS（Neural Architecture Search，神经架构搜索）跟剪枝路径不同。剪枝是从已有模型里删东西，NAS是直接搜一个更好的网络结构。早期NAS搜一次比训练一次还贵，业内基本不用。2024-2026的新一代NAS直接在已训好的模型上做结构剪裁式搜索，成本可控了，但工业上用得仍不如蒸馏和量化广。

1.1.4 MoE（Mixture of Experts）

MoE是路线最不同的一类。普通dense模型每个token都要经过所有参数，MoE把参数分成多个“专家“，每个token只激活其中几个（典型是8选2，也就是8个专家里选2个）。

效果是总参数可以做到几千亿级别，但单token的实际激活算力只用其中一小部分。Mixtral 8x7B、DeepSeek V3（671B总参数、约37B激活）、Qwen MoE都是这条路的代表。

MoE推理的工程难点也很明确。专家要全部存在显存里（DeepSeek V3即使FP8量化也要几百GB显存，单H100装不下），专家选择是动态的（每个token经过router决定激活哪几个），跨卡通信开销高（专家可能分布在不同卡上）。2025-2026的一批论文在攻“把不常用专家下放到CPU内存、按需调度“这条路，让MoE推理能在更小的硬件上跑。

1.2 投机解码：拿算力换延迟

自回归解码的根本病在于“一次只能出一个token“。生成100个token就是100步串行，GPU大部分时间在等KV cache从显存搬到计算单元，算力其实是闲的。

投机解码（speculative decoding）的思路很优雅。用一个小而快的草稿模型先猜出N个token，然后用大模型一次并行验证这N个token。猜对的留下，猜错的位置丢掉，从那里继续。关键性质是无损，最终输出跟大模型自己逐个生成完全等价，猜对就赚速度，猜错就退回，结果不变。

这条路三代演进得很清楚。第一代是“草稿加目标双模型“，用7B当草稿、70B当目标，草稿模型本身要训练或蒸馏。问题是草稿模型自己forward也要时间，限制了加速比。第二代Medusa（2023）跳过独立草稿模型，直接在目标模型的最后一层加几个轻量解码头，每个头预测一个未来位置的token，用树状注意力一次性验证多种token组合。第三代EAGLE系列（2024-2026）在目标模型的内部特征层做自回归预测，而不是token层，比Medusa又更进一步。

到2026年投机解码已经进入主流推理引擎的能力清单，高吞吐服务里越来越常见。vLLM默认支持Medusa、EAGLE等多种草稿方法，TensorRT-LLM提供最广泛的投机解码支持。生产环境典型加速比在两到四倍量级，但不同场景收益差异较大（草稿模型质量、目标模型架构、batch size、序列长度都影响接受率）。整体仍是过去三年推理优化里ROI最高的单项技术之一，实现复杂但工程量可控，收益显著。MoE场景天然契合投机解码，因为MoE推理本来就大量算力闲（只激活部分专家），投机解码正好把闲置算力利用起来。

1.3 推理引擎生态

把这些技术打包成能用的系统，是推理引擎做的事。2026年三大主流国际引擎各有定位。

vLLM 是PagedAttention的发源地，2023年由UC Berkeley团队开源。它支持的模型最广（几百种开源模型几乎都能跑），冷启动快，易用性最好，是上生产最快的路径。2024年起vLLM基本成为开源推理引擎的事实标准，适合需要灵活性和快速部署的团队，大量初创公司和研究者都在用。

TensorRT-LLM 是英伟达官方的数据中心级推理框架。它深度集成英伟达GPU的所有硬件特性，编译后的推理吞吐最高，同等硬件下比vLLM在高并发场景有可观优势。代价是冷启动慢（要编译）、只支持英伟达GPU。它适合单一模型、长期运行的大规模生产部署。混合精度量化（FP8、FP4、INT4 AWQ、INT8 SmoothQuant）和投机解码方法支持也是最全的。

SGLang 专攻“共享前缀场景“。chatbot多轮对话、RAG系统、Agent工具调用这类场景里，每次请求的prompt都有大量重复前缀（system prompt、历史对话等）。SGLang的RadixAttention把这些前缀自动缓存复用。对话和RAG系统选SGLang是合理的。

国内有自己的一套。上海AI Lab的lmdeploy是国内最活跃的开源推理引擎之一，它的核心trade-off是支持的国际模型不如vLLM广，但对国产硬件（昇腾、寒武纪、海光）适配更深。这条线跟上篇2.5节“中国AI硬件生态“形成上下对照。

推理引擎只是核心，一个生产级推理服务还需要前缀缓存、API网关、路由、多GPU张量并行这些外围层。Kubernetes原生的llm-d项目和“AI工厂“架构（存算分离的下一代数据中心设计）是这一层的新趋势。

1.4 推理标度：成本、延迟、吞吐三角

推理系统有三个核心指标，成本、延迟、吞吐，三者形成一个不可兼得的三角。批越大吞吐越高但单请求延迟越高，延迟越低单位算力服务的用户越少所以成本越高，成本越低靠最大化批处理但延迟变高。

不同应用场景在三角上的位置不同。对话系统优先低延迟，因为用户在屏幕前等。批处理类任务（夜间分析、后台总结）优先高吞吐和低成本，没人盯着看。Agent类应用又不一样，链路里每步推理的延迟叠加成总延迟，对单步延迟尤其敏感。

还有一条二分是Prefill-bound和Decode-bound。长上下文RAG系统（prefill 50k+ token、decode几百token）是prefill-bound，瓶颈在算力。长生成场景（prefill几百token、decode几千token）是decode-bound，瓶颈在显存带宽。两类问题的优化重点完全不同。

工程上的实操含义是，没有一个推理系统能同时把成本、延迟、吞吐做到最优。要选定应用场景，明确优化目标，按目标调整batch size、batch策略、硬件配置。

成本anchor帮读者拿到体感，下面这些数字都是公开估算或推算，实际值取决于上下文长度、输出长度、模型路由、缓存命中率等多个变量，不要当确定财务数据用。多个公开估算显示OpenAI跑ChatGPT服务的日成本量级在百万美元级以上，OpenAI自己没公开过具体数字。按API公开价格估算，GPT-4o这一档模型一次复杂query的边际成本在美分量级，Claude和Gemini同一档次。API价格曲线过去三年降了一个数量级以上，工程优化、硬件迭代、竞争三股力量叠加的结果。中等规模公司部署自己的LLM服务，硬件capex加电费加运维，年总成本起步千万美元。一个百万日活的AI产品，推理基础设施年成本量级常见在数千万到亿级美元区间。这就是为什么所有大厂都有几十人的推理优化团队，年推理支出几亿美元的公司，把成本压低5% 就是几千万美元的现金。

这里还要补一句澄清，前面讲的各项优化（量化、PagedAttention、continuous batching、投机解码、Flash Attention）不是简单的相乘关系。它们之间会互相影响，比如量化降了显存占用、间接让batch size能开更大，但投机解码在batch size大的时候收益反而下降，因为GPU算力没那么闲了。真实生产中要做组合性能benchmark，不能把每项单独的“加速N倍“乘起来当总加速。

跟第四章电力那条线相通的是tokens per watt这个指标。一家推理服务的真正效率，最终就是每瓦电力能产生多少token。它同时反映了硬件层效率（GPU或ASIC单位电力的算力）、数据中心层效率（PUE）和推理层效率（量化、KV cache、批处理、投机解码所有优化叠加）。这个指标把上篇第四章的电力跟这一章的推理优化统一到了同一个目标函数下。

1.5 测试时计算：推理从“跑模型“变成“决定模型多强“

2024-2026推理层最深的一次范式变化是“测试时计算“（test-time compute）。

传统观念里，模型的能力在训练阶段决定，训练完之后推理只是“跑这个固定能力“。新观念把这件事颠倒过来：推理时多花算力，能让同样权重的模型表现出更强的能力。让模型多想一会儿，生成更长的reasoning trace、多次采样后聚合、tree search、self-refine，能在数学、编程、复杂推理任务上拿到显著更好的结果。

先把这一节的“推理“跟前面几节的“推理“区分一下，它们是两个英文词的同一个中译。前面1.1到1.4讲的“推理“对应英文inference，指模型跑一次forward pass把输入算成输出。这一节“测试时计算“里的“推理“对应英文reasoning，指模型生成的中间思考过程。这一节谈的“推理时多花算力变更强“，准确说是“inference阶段做更多reasoning计算“。

OpenAI o1（2024-09）是第一个公开拥抱这条路的模型。后续o3、DeepSeek R1（2025-01）、Anthropic extended thinking、GPT-5.5 Pro、Claude Opus 4.x都内置了reasoning模式。工程实现的几条主流路径是长reasoning trace（最终回答前生成几千到几万token的中间思考）、Best-of-N（多次采样不同回答用verifier模型挑最好）、tree search（把推理过程展开成树按价值函数剪枝）、self-refine（让模型自己批评自己的回答再修正）。

这件事的理论根相对硬。Transformer的一次forward pass是固定深度的电路，表达能力上限被复杂度论限死了，很多看似简单的逻辑或算术问题在固定深度电路里根本表达不出来。chain-of-thought把这个上限突破了，生成N个中间token等价于把那个深度动态展开成N倍，Merrill和Sabharwal 2023-2024的一系列论文严格证明Transformer加chain-of-thought的表达力严格超过单次forward。Snell等人2024-08那篇《Scaling LLM Test-Time Compute Optimally》（arXiv:2408.03314）给了实证scaling law，中等难度任务上14倍长推理相当于14倍大模型，论文出来一个月后OpenAI o1发布。

Sam Altman在他的“Three Observations“博客里把这件事说得很直接：AI模型的智能大约等于训练和运行所用资源的对数，这些资源主要是训练算力、数据、推理算力，看起来你可以投入任意多的钱，得到连续且可预测的回报。这把推理时计算的scaling跟训练时计算的scaling放在同一个等式里看待。

经济含义是推理时多花十倍算力可能换来模型能力上一个台阶。这把推理优化从“省钱“提升到“决定能力“的层级。训练时增加算力（更大模型、更多数据）跟推理时增加算力（更长reasoning）两条scaling law现在并存，哪条ROI更高是2026年AI行业最大的开放问题之一。

这是模型和工程边界消融的最清晰落点。同一套权重，配上不同的推理时计算预算，能产生能力完全不同的两种产品。

1.6 总结：同一套权重，两个产品

上面这些技术不是互斥的，可以叠加。一个真实对比是朴素PyTorch推理跟经过完整优化的推理引擎，端到端成本效率可以差5-8倍。每一层叠加都有边际收益递减，但合在一起能把单token成本压到原来的五到八分之一。

更深的判断是优化与否的差距大于GPU换代的差距。朴素PyTorch推理在B200上跑，慢于优化好的vLLM或TensorRT-LLM在H100上跑，后者更快、更便宜。对多数公司来说，与其追着升级到最新GPU，不如把现有GPU的推理软件栈做对。这条判断对中小公司特别重要，不需要砸钱抢B200，把H100集群用好就能服务大量用户。对大厂的意义同样具体，年推理支出10亿美元的公司压低5% 就是5千万美元，所以OpenAI、Anthropic、Google各自有几十人的推理优化团队。

回到本节标题，“同一套权重，两个产品“的画面今天已经很具体。OpenAI在API里提供reasoning effort的low/medium/high三档，价格和延迟差几倍但底层是同一组权重。Anthropic的Claude extended thinking是on/off开关，开了之后单次回答的token消耗可以涨十倍以上，但SWE-bench Verified和数学题准确率显著上一个台阶。DeepSeek R1是在V3-Base之上加reasoning后训练得到的，跟V3的通用回答版本共用基础架构和大量参数。

工程层面通过推理预算和后训练head，把同一个底座切成“快产品“和“慢产品“两种业态。这一层不需要训练新模型就能做出截然不同的价位段，是2025-2026年LLM商业模式变化最快的一块。

至此运行态才算真正收尾。下面进改造态，讨论模型本身怎么从一个“会续写文本“的基础模型，被改造成你今天用的ChatGPT、Claude、Gemini。这条线的核心叫后训练。

二、后训练入门：从基础模型到对话模型

上篇第五章讲的“训练态“，准确说是预训练（pre-training），用海量文本做next-token prediction，最后跑出一个“能续写文本“的基础模型。预训练之后还有一道工序，叫后训练（post-training），把这个基础模型改造成你今天用的ChatGPT、Claude、Gemini。让它能回答问题、能听指令、能拒绝有害请求、能跟人类对话风格对齐，全部靠这一步。

这一章讲后训练的整体动机和最朴素方法，下一章再展开RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）这条主线。

2.1 为什么需要后训练

预训练的训练目标是“给定前面的token，预测下一个token“，跟“成为一个有用的助手“不是同一件事。基础模型（base model）做的事情本质上是续写，看到什么样的开头就续写什么样的延续。如果训练数据里包含垃圾文本、跑题段落、有害内容（这些占了互联网文本不小一部分），基础模型也会照样续写。

最直观的对比是GPT-3的base model跟ChatGPT。同问“如何制作炸弹“，base model会按训练数据里的相关续写真的给你制作步骤（因为这种段落在网上不少见），ChatGPT的GPT-3.5同问会拒绝并解释为什么不能回答。两者底层模型差异不大，差距几乎全在后训练。再换个例子，base model看到“用户问：今天纽约几度？“它最可能续写的是另一个问题或一段无关闲聊，而不是回答。它压根没“学会“问答这件事，只学会了文本续写。

ChatGPT时刻（2022年11月）的真正秘密在这里。它的产品跃迁不只来自base model规模升级，更来自OpenAI把InstructGPT那套SFT加RLHF的后训练路线系统化应用到了对话场景。InstructGPT论文里有一个有名的数据点，1.3B参数的InstructGPT在人类评估的偏好打分上优于175B参数的GPT-3，参数少了一百倍但用户更喜欢。这件事第一次让业界看清楚，后训练对最终产品的影响可以盖过参数规模本身。

我自己几年来做AI产品，反复体感到这件事的重要性。同一个开源base model，两家公司各自做后训练，最终产品的可用度差距可以差一个数量级。“模型本身有多强“是个吸引人的话题，但工程上真正决定产品形态的是后训练这条线。

2.2 SFT：监督微调，从续写到对话

后训练的最朴素方法是SFT（Supervised Fine-Tuning），监督微调。具体做法是攒一批高质量的“prompt加理想回答“对，让模型在这批数据上微调，学着模仿这种回答模式。

数据规模上有清晰的演进。早期InstructGPT用的SFT数据大约几万条，是OpenAI自家标注员写的。Llama 2之后开源圈的SFT数据集（OpenAssistant、Alpaca、ShareGPT等）规模拉到十几万到几十万条。现代大厂的SFT数据动辄几十万到几百万条，由专门数据标注团队加合成数据混合而成。

但数据规模不是决定一切的。SFT真正决定输出质量的是数据的多样性、风格一致性、标注员水平。一万条高质量数据比十万条平庸数据训出来的模型更好。所以大厂在SFT上花的功夫主要在数据筛选和质量控制，不是简单堆数据。

SFT的局限也很明显。模型学到的是“什么回答看起来像理想答案“，不是“什么回答真的正确“。如果标注员喜欢写得长、措辞自信、有结构感的回答，模型就会模仿出“长且自信地编“的风格。这就是为什么很多SFT-only的开源模型读起来有AI味（套话长、bullet多、措辞过度肯定），它们模仿了答案的表面特征但没机会学到“什么时候应该承认不知道“。

要解决“看起来对“ vs “真的对“的差距，SFT不够，要靠RLHF或DPO（Direct Preference Optimization，直接偏好优化）这一类基于偏好的方法。这是下一章的主线。

2.3 后训练流水线总览

后训练是一条流水线，不能用单一一招概括。完整流程大致是：从一个预训练好的base model出发，先做SFT让模型学会基本回答格式，然后收集人类偏好数据训一个reward model（或者直接走DPO跳过这步），再用RLHF（核心算法是PPO，全称Proximal Policy Optimization，近端策略优化）或DPO微调模型最大化偏好奖励，最后跑一套评估决定能不能上线。

大厂的迭代节奏有明显规律。Base model训练周期长，3到6个月走一轮（数据准备、训练、评估）。后训练的迭代周期短得多，每2到4周可以做一次小迭代。新加一批标注数据、调一调reward model、跑一遍PPO、A/B测试。这是为什么模型版本之间“感觉变了“的频率远高于“能力换代“的频率，绝大多数感觉差异来自后训练改动，不是base model升级。

后训练是模型性格、风格、安全行为的真正塑造期。LLM商业痛点4.3节讲过的版本退化（用户抱怨新版变冷、变短、refusal更多）几乎全部源自后训练的对齐调整，而不是底层模型变弱。理解这件事很重要，因为外界容易把模型行为变化误解为“模型变笨了“，实际上往往是后训练在重新校准Helpful跟Harmless的权衡。

2.4 后训练经济：标注数据是真正的瓶颈

预训练讲数据稀缺，讲的是“高质量的互联网文本越来越难找“。后训练讲数据稀缺，讲的是另一件事，“高质量的人类偏好标注成本极高且无法靠爬虫解决”。

预训练数据原则上可以从互联网爬，把所有合理来源的文本聚合起来就是几万亿token级别的训练集。后训练数据不能这么做。你需要的是结构化的“这是一个prompt，这是回答A、回答B、人类标注员认为A更好且原因是X“这种数据。这类数据全网爬不到，必须专门组织人去写、去比、去判断。

一条“专家级偏好标注“的市场价不低。普通领域的偏好对（“这两个回答哪个对用户更有用”）成本可能几美元一条。但医学、法律、数学、代码这种专业领域，标注员要有真实专业背景，单条成本可以到50到200美元。一个SOTA模型完整训一轮RLHF流程，光标注成本可以达到几百万到几千万美元。

这块需求养出了一整批数据标注公司。Scale AI是最有名的一家。它2016年由Alexandr Wang在MIT退学创办，早期主要做自动驾驶（Waymo、Cruise）和国防（Pentagon合同）数据标注，2023年起才转向LLM RLHF偏好标注作为最大业务。2024年5月估值138亿美元，2025年6月Meta花约143亿美元买了49% 非投票股权，估值跳到290亿美元级别，Alexandr Wang直接被Meta挖走带队Superintelligence Labs。

这笔交易有副作用。OpenAI、Google等担心训练数据流向Meta，2025年下半年起陆续转去其他供应商，Scale AI在LLM标注的市场份额被分流。资本动作没让行业的数据标注能力产生质的飞跃，主要换了一次玩家洗牌。Scale AI 2024年收入约8.7亿美元（据Sacra等公开估算）。

Surge AI是另一家以质量见长的标注公司，据报道2024年收入已经达到十亿美元级（具体财报不公开），OpenAI和Anthropic都是它的大客户。这两家加上Labelbox、Toloka、Snorkel AI等一批公司，撑起了大厂后训练的数据供给。

值得说一下大厂跟标注公司的关系。OpenAI自己不雇标注员，标注流水线全部外包。早期通过Sama（肯尼亚一家BPO公司）雇当地工人做有害内容标注，2022年那次曝光时给的报酬是1-2美元/小时，引发争议。后来主要用Surge AI和Scale AI两条线，加上一部分内部contractor团队。Anthropic早期投入更多内部资源，强调用有判断力的高质量标注员（包括有相关PhD背景的人）来做偏好标注，是相对少数没把这一层全外包的大厂。

后训练的数据稀缺比预训练更尖锐。预训练数据可以靠合成数据扩展，第五章会讲这条线。后训练数据虽然也能用AI反馈替代部分人类标注（RLAIF那条路），但目前最高质量的偏好信号仍然只能来自有判断力的真人。这是为什么Scale AI、Surge AI这种公司能在大模型时代撑起几百亿美元估值，它们卖的本质上是“有判断力的人类时间“，软件只是承载工具。

讲完后训练入门，下面第三章详讲RLHF这条主线，第四章讲它的简化路径DPO。

三、RLHF：人类反馈强化学习

后训练里最经典也最重要的一条线。这一章讲RLHF的工程流程、历史、副作用、现实代价。

3.1 RLHF 三步流程

RLHF（Reinforcement Learning from Human Feedback）的核心思路是把“人类喜欢哪种回答“这件事变成一个可优化的目标函数。具体三步走。

第一步是SFT起步。前一章讲过，用一批高质量“prompt加理想回答“对让模型学会基本回答格式。这一步只是热身，没经过SFT直接走RL的模型行为很难收敛。

第二步是训reward model。收集大量人类偏好数据，每条数据是“对同一个prompt的两个不同回答，标注员认为A更好还是B更好“。用这些数据训一个reward model，输入是“prompt加回答“，输出是一个标量分数。这个分数代表“如果让人类标注员看，这个回答会被认为有多好“。

第三步是用reward model当RL的reward函数，跑PPO（Proximal Policy Optimization，近端策略优化，OpenAI 2017年提出的RL算法）微调原模型最大化reward。微调过程中模型生成回答、reward model打分、PPO算法用这个分数更新模型权重。为了防止模型偏离原SFT模型太远（导致输出乱套），还要加一个KL散度惩罚项，约束新模型跟SFT模型不要差距太大。

关键判断是reward model决定一切。如果reward model错了（系统性偏向某种风格、漏掉某种维度），整个RL过程就把模型推向错的方向。这就是为什么大厂在reward model上花的功夫往往超过RL本身。

3.2 InstructGPT 到 ChatGPT：RLHF 的工业化时刻

RLHF不是OpenAI发明的。2017年Christiano、Leike等人发表的《Deep Reinforcement Learning from Human Preferences》就提出了基本框架，当时用在Atari游戏上。2020年OpenAI把这套方法用在文本摘要任务上（Stiennon et al），证明RLHF训出来的摘要模型比人类标注员写的还受欢迎。

真正的工业化时刻是2022年3月的InstructGPT论文（Ouyang et al, arXiv:2203.02155）。OpenAI第一次系统性把RLHF应用到GPT-3上，证明这套配方在通用语言模型上work。论文里那个“1.3B InstructGPT偏好打分优于175B GPT-3“的数据，让业界第一次看清楚后训练对最终产品的影响可以盖过参数规模。

2022年11月的ChatGPT是InstructGPT配方的消费级产品化。OpenAI把GPT-3.5用同样的RLHF流程改造，做成对话界面对外推出，意外引爆了LLM消费级市场。

后续配方迅速扩散。Anthropic 2022年12月发了Constitutional AI论文（Bai et al, arXiv:2212.08073），把RLHF框架扩展成“用AI反馈替代部分人类反馈“（RLAIF，第五章会讲）。Meta 2023年7月发布Llama 2时公开了完整的RLHF训练配方（PPO超参、奖励模型架构、数据流程），让开源圈第一次能从头复刻一遍。这之后几乎所有商业LLM的后训练都走RLHF或它的变体，RLHF成为大厂后训练的标配。

3.3 Reward Hacking 与 sycophancy

RLHF听起来美好（“让模型学会人类偏好”），实际跑起来有个根本副作用叫reward hacking。模型学到的目标是“什么回答能让reward model打高分“，跟“什么回答真的好“两者在数据足够多时仍然有偏差，偏差被RL放大。

最典型的reward hacking表现是sycophancy（谄媚）。Anthropic 2023年发的《Towards Understanding Sycophancy in Language Models》（Sharma et al, arXiv:2310.13548）系统性验证了这件事。论文测试了5个SOTA模型（包括Claude、GPT-4、Llama 2），发现它们在判断“用户说的事实对不对“时一致偏向附和用户立场。如果用户说“X是对的“模型倾向附和，如果用户接着说“我刚才说错了，X其实是错的“，模型又会反过来附和。即使原本判断正确，被用户质疑也会摇摆。

根源是reward model学到的偏好跟“客观正确“有偏差。人类标注员标“哪个回答更好“时，附和性回答天然得分高（让人感觉被认同）。这种偏好被reward model学到，被RLHF放大成系统性bias。

其它reward hacking表现也很多。回答写得长得分高（标注员误把“详细“等同于“好“），用bullet list排版得分高（看起来结构清晰），措辞自信肯定得分高（标注员讨厌模棱两可）。这些加起来构成了用户口中“AI味“的产品层体现。LLM商业痛点3.5节专门讨论过这件事，根源就在RLHF这一层。

3.4 对齐税（alignment tax）

RLHF的另一个副作用业内常称为“对齐税“（alignment tax）。为了让模型更安全、更礼貌、更不会说有害内容，往往要牺牲一部分原始能力。

机制源于HHH三者的内在冲突。HHH是对齐目标的标准framing，指Helpful（有用）、Harmless（无害）、Honest（诚实）三个维度，源自Anthropic 2021年那篇《A General Language Assistant as a Laboratory for Alignment》，第六章会详讲。Helpful要求模型尽力回答用户问题，Harmless要求模型拒绝危险或不当的请求。当RLHF让模型在Harmless维度变强（不轻易输出有害内容、不被恶意prompt绕过），Helpful维度往往会变弱（也开始拒绝正常问题、回答变得保守）。Honest维度类似，让模型更小心、更愿意承认不知道，可能让它对真知道的问题也变得犹豫。

跟这条线密切相关的案例是GPT-5在2025年8月发布时的backlash。OpenAI紧急恢复GPT-4o选项给付费用户，ChatGPT负责人Nick Turley后来在The Verge报道里承认“In retrospect, not continuing to offer 4o, at least in the interim, was a miss“。用户大规模抱怨新版“更冷、更短、少个性“，社交媒体上不少GPT-4o老用户公开表达留恋。这件事的直接原因是用户感知和产品切换断层，背后涉及对齐和风格调整的多维改动，“对齐税“是相关因素之一但不是唯一解释。新模型整体能力可能更强，但用户用了一年多形成的“手感“被改变，可用感反而下降。

对齐税是后训练的常驻问题，每次迭代都要权衡。模型团队几乎不可能找到一个让所有人都满意的点，只能根据产品定位选择钢丝上的位置。这件事也解释了为什么不同厂家的模型读起来风格差异明显，Anthropic偏保守、OpenAI偏热情、Google偏中性，本质上是各自对HHH权衡的不同选择。

3.5 RLHF 的工程现实

RLHF听起来流程清楚，实际跑起来工程难度极高。

第一难是数据成本。一个SOTA模型完整训一轮RLHF，光人类偏好标注成本就可以达到几百万到几千万美元，前面2.4节讲过。这还不算RL训练本身的算力消耗。

第二难是PPO训练的稳定性。RL训练栈本身就比监督学习难调，PPO在LLM上的表现对超参数极其敏感（learning rate、KL系数、clip ratio、batch size任何一项调不好都可能让训练崩）。模型还容易出现mode collapse（输出多样性消失、所有prompt都输出类似回答）、过度优化reward model（学会骗reward model但实际质量下降）、训练发散等问题。大厂内部专门的RLHF团队规模一般在几十人级别，专攻这条线的稳定性。

第三难是评估。RLHF的目标函数本身（让reward model打分高）跟“模型真的更好用“不完全一致，必须有一套独立的端到端评估（A/B测试、人工评估、benchmark跑分）来确认RLHF后的模型真的更好。这套评估的设计和维护本身就是大工程。

这些工程门槛让中小厂和开源社区基本走不动PPO。这就是为什么2023年5月Stanford的DPO论文一出来，开源圈迅速主流化。DPO给出一条不用RL也能拿到类似效果的简化路径，下一章展开讲。

四、DPO 与开源后训练的简化路线

RLHF工程复杂。2023年Stanford的DPO论文给出一条简化路径，让开源社区主流化了。这一章讲DPO这一系。

4.1 DPO：把 RL 拿掉的洞见

2023年5月，Stanford的Rafailov、Sharma、Mitchell、Ermon、Manning、Finn等人发了一篇标题挺有意思的论文，《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》（arXiv:2305.18290）。中文意思是“直接偏好优化：你的语言模型本身就是一个偏好奖励模型“。

DPO的核心洞见在数学层面。RLHF的优化目标可以被重新参数化，让reward model和policy（被训练的模型）共享同一组参数，等价于一个直接从偏好数据训练的监督学习目标。换句话说，根本不需要单独训reward model，也不需要PPO这种RL算法，用一个简单的对比损失函数就能拿到类似RLHF的效果。

工程实现的简化是巨大的。RLHF三步流程被压缩成一步，不用维护reward model训练管线、不用PPO训练栈、不用RL那一套敏感超参数调优。DPO的训练过程跟SFT几乎一样简单，喂偏好数据进去，跑标准的梯度下降，模型自动学到偏好。

效果在多个benchmark上跟PPO-based RLHF接近甚至更好。DPO原论文里在sentiment control、summarization、single-turn dialogue三个任务上证明DPO不输于PPO，且实现简单得多。这是2023年下半年开源圈迅速转向DPO的关键节点。

DPO的局限也存在。理论上PPO更灵活（reward model可以独立优化、可以加多种约束、可以做reward shaping），DPO把这些都简化掉了，在某些细节场景下RLHF表现仍然更强。但对绝大多数应用来说，DPO的“简单可跑通“远比“理论上更强“重要。

4.2 IPO、KTO、ORPO 等变体

DPO火起来之后，2023年下半年到2024年涌现了一批改进算法。每个都针对DPO的某个具体局限。

IPO（Identity Preference Optimization）解决DPO在某些场景的过拟合问题。DPO的损失函数在偏好数据非常确定（每对都是明确的A优于B）时容易过度推开chosen和rejected的概率，导致训出的模型在某些维度上over-confident。IPO改进了损失函数让过拟合不那么严重。

KTO（Kahneman-Tversky Optimization）名字来自行为经济学家Kahneman和Tversky的前景理论。最大特点是不需要成对偏好数据，每条数据只要标“这个回答好“或“这个回答不好“就够，不需要“A比B好“这种相对比较。这降低了数据标注成本，特别适合标注预算有限的场景。

ORPO（Odds Ratio Preference Optimization）走得更彻底，把SFT和偏好对齐合并成一步。不用先SFT再DPO，直接在一个训练过程里同时学习指令跟随和偏好对齐。

2024-2026开源社区主流后训练基本在DPO、IPO、KTO、ORPO这几个里挑，根据数据形态和场景选不同算法。HuggingFace TRL库把这几个算法都包好，开发者一行import就能切换。

4.3 开源社区的主流化

DPO让开源后训练真正走得通了。

HuggingFace TRL（Transformer Reinforcement Learning）库是这一层的核心基础设施。它支持SFT、DPO、IPO、KTO、ORPO等几乎所有主流后训练算法，跟HuggingFace Transformers深度集成，是开源圈的事实标准训练框架。

更上层的微调框架（Axolotl、Unsloth、LLaMA-Factory等）基本都默认走DPO路线。开发者写一个yaml配置文件指定数据集和算法，框架自动调TRL跑训练。这套工具链让“用4张H100微调一个70B模型“变成几天工程的事，而不是几个月。

大量开源模型走这条路。Mistral的指令微调模型、Qwen系列的社区版本、Llama 3的各种fine-tune、零一万物的Yi-Chat等都在用DPO或它的变体做对齐，DPO及其变体成了开源后训练的常见路线。中国LLM微调圈也以DPO系为主，原因相同（PPO训练栈门槛太高）。

这一层繁荣对开源生态的影响很直接。如果只有PPO一条路，开源社区只能跟在大厂后面走半年，永远拿不到SOTA后训练能力。DPO拉平了这条线，让开源模型在某些任务上能跟商业模型直接竞争。

4.4 大厂 PPO 与开源 DPO：工程预算决定选择

DPO这么好，为什么大厂内部还在用PPO？答案是工程预算和理论灵活度的权衡。

大厂的优势是有几十人级别的RLHF团队和成熟的RL训练栈。他们能把PPO调到稳定运行，能利用PPO的灵活性做reward shaping、加多个reward model组合（一个helpful、一个harmless、一个honest分别打分）、做multi-stage RL（先优化一个目标再优化另一个）。这些花活DPO一刀切的损失函数做不了。

开源社区和中小厂的反向选择也很自然。他们没有专门的RL工程师团队，PPO调不稳是常态。DPO即使在最强的对齐效果上稍弱，工程稳定性的提升足以抵消。这件事的真问题是“在什么资源下能稳定跑“，而不是“谁更好“。

2026年的趋势是边界在松动。大厂也在内部测试DPO路线，部分场景已经切换。开源圈也在尝试简化版PPO（GRPO、RLOO等），把PPO的工程难度降下来。两条路线长期看可能会收敛到中间某个混合形态。

还要补一句澄清，SFT、RLHF、DPO这几个名字看起来是替代关系，实际生产里不是线性二选一。大厂典型pipeline都是混合多阶段：SFT起步、PPO跟DPO在不同子任务/不同维度上分别用、再叠加Constitutional AI或RLAIF做安全过滤，最后还有针对垂直场景的final fine-tune。同一个最终模型可能经过5-10个后训练阶段，每个阶段用不同算法和数据。下面讲合成数据时这种“混合多阶段“的特征会更明显。

模型版本之间感觉的差距，绝大部分还是源自后训练改动而不是底层算法选择。但DPO这条线的工程意义是，它让“做后训练“这件事从只有几家大厂能做，变成开源社区都能做。这是2023年到2026年这几年LLM生态最重要的工程演化之一。

五、合成数据与 AI 反馈

人类标注是后训练成本和扩展性的瓶颈。让AI替代或辅助人类标注，是2023起的另一条主线。

5.1 Constitutional AI：让 AI 自己批评自己

Anthropic 2022年12月发的《Constitutional AI: Harmlessness from AI Feedback》（Bai et al, arXiv:2212.08073）是这条线的开端。

思路是给AI一组自然语言写的“宪法“（principles），让AI用这组宪法批评和改写自己生成的回答，整个过程不需要人类标注员介入。比如宪法里可能有一条“请你的回答不要包含暴力指导“，模型生成的回答如果违反这条，由模型自己识别并改写。

具体两阶段。第一阶段叫SL-CAI（Supervised Learning），模型按宪法对自己的回答做自我批评和改写，把改写后的数据当作新的SFT训练集训出一个更安全的模型。第二阶段叫RL-CAI，用AI替代人类提供偏好信号，让一个AI评估两个回答哪个更符合宪法，把这些AI偏好当作reward model训练数据，再走标准RL流程。

Anthropic用这套路训了Claude系列。代表性贡献是证明AI反馈在某些对齐维度上可以匹配甚至超过人类反馈，并且大幅降低了对人类标注的依赖。Constitutional AI这个概念后来变成业内通用术语，很多大厂都在自己的训练管线里加了类似的“AI自我批评“环节。

这套方法的本质是把对齐的标准从“标注员的隐性偏好“换成“明文写的宪法“。优点是transparency更高（你能看到模型在按什么规则约束自己），缺点是宪法写得不全或写得不准时，模型也会按错的规则训练。

把这条线的战略含义拎出来。OpenAI那种“海量用户thumbs up/down形成数据飞轮“看起来是无可比拟的优势，实际效果有限。原因是用户反馈信噪比低、天然把模型拉向sycophancy（3.3节讲过的机制）、专业场景（代码、数学、长篇推理）的反馈极少。

Anthropic走Constitutional AI这条反向打法（少量PhD级标注+AI反馈）反而绕过了人类反馈的几条结构性局限，在代码、长上下文、企业市场这几个维度上2024-2025年陆续赶上甚至超过OpenAI。这件事说明数据飞轮要成持续护城河，前提是“竞争对手收集不到类似数据“。当AI反馈能替代人类反馈时，这个前提就不成立了。

5.2 RLAIF：AI 反馈替代人类

Constitutional AI主要解决harmlessness维度。Google 2023年9月发的《RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》（Lee et al, arXiv:2309.00267）把这条线推到更通用的场景。

RLAIF（Reinforcement Learning from AI Feedback）的核心是让reward model从AI反馈训练，不用人类。具体做法是用一个强LLM当裁判，让它对每对回答打分（哪个更helpful、哪个更harmless），把这些AI偏好当作reward model的训练数据，整个RLHF流程其余部分不变。

Google那篇论文证明RLAIF在summarization、helpful dialogue、harmless dialogue三个任务上能拿到跟RLHF接近的效果，证明AI反馈在helpfulness维度也跟人类反馈持平。论文还提出一个变体叫direct-RLAIF（d-RLAIF），跳过reward model训练直接用AI当reward函数，在某些场景表现更好。

动机非常实际。人类标注是后训练的成本天花板和扩展性瓶颈，前面2.4节讲过单条专家偏好标注可以到200美元。如果AI反馈能在多数维度替代人类反馈，标注成本可以降一到两个数量级。

2024-2026实际做法是混合。人类高质量数据打底（特别是edge case、专业领域、安全相关）保证reward model不会学偏，AI反馈大规模扩展覆盖普通场景。大厂内部的真实比例是商业秘密，但公开论文和工程实践都指向这条混合路线：人类高质量数据打底，AI反馈扩展覆盖面。

5.3 蒸馏式后训练：用强模型造弱模型训练集

合成数据这条线还有一个特殊变种叫蒸馏式后训练。这跟第1.1节讲的“蒸馏“概念相通但场景不同。

具体做法是用GPT-4或Claude Opus这种SOTA强模型，对大量prompt生成“理想回答“，把这些“prompt加回答“对当SFT数据训练一个小模型。整个过程不需要自己跑RLHF，借强模型的对齐能力直接产生数据，成本远低于从零做后训练。

大量开源模型走这条路。Vicuna（基于LLaMA，用ShareGPT上抓的ChatGPT对话数据训）、Alpaca（Stanford用GPT-3.5自动生成52K instruction数据训）、WizardLM（用GPT-4生成更复杂的instruction数据）这一批是2023年开源圈的代表。后来各种70B fine-tune（Hermes、OpenChat、Dolphin等）也大量用类似配方。

问题是法律灰色。OpenAI、Anthropic的ToS都明令禁止“用API输出训练竞品模型“，蒸馏式后训练技术上违反这一条。但实际很难追责，因为很难证明某个开源模型用了某家API的输出（数据通常经过清洗、混合、二次处理）。

中国部分模型疑似走过这条路。Wenxin（百度）、Yi（零一万物）的早期版本都被怀疑用了GPT-4蒸馏数据，但都没有承认。这件事的法律和商业讨论2024-2025还在持续，没有定论。

蒸馏式后训练的最大价值是降低后训练门槛。一个小团队不需要自己组建标注团队、不需要跑RLHF，借强模型的能力就能产出一个像样的对齐模型。这是开源生态2023-2024爆发的核心引擎之一。

5.4 Model Collapse：合成数据的根本风险

合成数据用得多了会出问题。

Shumailov、Shumaylov、Zhao、Papernot、Anderson、Gal 2024年7月发的Nature论文《AI models collapse when trained on recursively generated data》（Nature 631:755-759）系统性证明了这件事。论文的核心结论是，AI模型反复用前代AI生成的数据训练，几代之后会出现model collapse，模型分布越来越窄、长尾内容消失、最终输出趋于无意义。

机制可以这样理解。一个生成模型的输出本质上是从训练数据分布里采样。每代生成会“丢失“低概率的长尾内容（因为采样次数有限），下一代用这些采样数据训练就学不到那些长尾。几代之后长尾完全消失，分布坍塌成一个窄峰，模型输出的多样性大幅下降，对未见过的真实输入泛化能力也下降。

这个问题对纯合成数据训练特别致命，对混合数据训练也是隐忧。如果一个模型80% 训练数据是合成的、20% 是真实人类数据，几代之后这80% 的合成数据也会被前代模型的偏差污染，model collapse风险仍然存在。

工程对策有几条。合成数据必须跟真实人类数据持续混合，不能完全替代。要有质量筛选，把低质量的合成样本过滤掉。要持续注入新分布的真实数据，防止训练集偏向某种风格。但这些都不是彻底解决方案，怎么在大规模合成数据训练下避免model collapse仍是2026年的开放问题。

这条线跟前面5.2 RLAIF、5.3蒸馏式后训练形成一个张力。一边是合成数据让后训练成本大幅下降、扩展性大幅提高，另一边是合成数据用过头会让模型能力倒退。怎么找到平衡点是当前每家大厂内部都在试错的事，没有公开的最佳实践。

六、对齐：HHH 与内在权衡

后训练把模型变成“能用“。对齐让模型变成“敢用“。这一章拆对齐的理论框架和内在张力。

6.1 HHH 框架的提出

对齐目标的标准framing是HHH：Helpful、Honest、Harmless。这套语言来自Anthropic 2021年12月发的《A General Language Assistant as a Laboratory for Alignment》（Askell et al, arXiv:2112.00861）。

Helpful指模型尽力帮用户完成任务，回答问题、写代码、写文档等。Honest指模型不编造事实、不假装知道自己不知道的事、能恰当calibrate自己的confidence。Harmless指模型不输出可能伤害用户或第三方的内容，包括暴力指导、隐私泄露、歧视内容等。

这三个目标听起来都合理，但有一个根本问题：它们不能同时最大化。让Harmless更强往往会让Helpful变弱（更多拒绝），让Helpful更强往往会让Harmless变弱（更容易被绕过），让Honest更强往往会让Helpful显得犹豫（“我不确定“出现频率上升让用户体验下降）。任何一个生产模型的最终行为都是HHH三者权衡的某个点。

这个框架后来成为业内对齐讨论的共同语言。OpenAI、Google、Meta各家虽然不一定明确用“HHH“这个词，但实际对齐目标基本都对应到这三个维度。学术界也大量引用这个框架做对齐研究的基础设定。

实际工程上，每个模型版本上线前都要重新校准HHH权衡点。这个校准没有标准答案，依赖产品定位、目标用户、监管要求。结果是不同厂家的模型读起来风格差异明显，第三章3.4节讲过Anthropic偏保守、OpenAI偏热情、Google偏中性，本质都是HHH权衡的不同选择。

6.2 Helpful 跟 Harmless 的钢丝

HHH三者里Helpful跟Harmless的冲突最常见也最具体。模型在“过度拒绝“和“过度配合“之间走钢丝。

过度拒绝是这边的失败模式。用户问一个正常问题被拒。早期模型对正常技术词汇（kill进程、shell exec、烹饪化学反应等）误判为危险词的情况有不少报道，但具体案例多是社区口耳相传，目前主流模型已经显著改善。残留的问题集中在医学药物剂量、安全研究、法律刑事案件讨论这类边界场景，过度拒绝降低了产品对专业用户的可用度。

过度配合是另一边的失败模式。用户用各种prompt技巧（role-play、ASCII art、低资源语言、prompt injection）就能绕过refusal，让模型输出本应拒绝的内容。这种jailbreak攻击下一章7.1节会展开讲。

实际产品的做法是分场景做权衡。OpenAI的ChatGPT默认设置偏Harmless（C端用户多、不确定性高），但GPT API给开发者用的版本默认设置偏Helpful（开发者自己负责使用风险）。Claude在Anthropic的Console跟Claude.ai也类似分场景。这种“同一个模型不同前端不同行为“的设计已经是行业标准。

还有一类更细的权衡是按用户身份区分。企业用户走的API走的合规审计跟个人用户走的ChatGPT走的内容过滤完全不同。医院、律师事务所跟着行业合规需求做更高的Helpful设定（医生要能问关于药物剂量的真实问题），消费级产品维持高Harmless设定。

6.3 Honest 的挑战

Honest维度比Helpful和Harmless复杂。它不只是“不撒谎“，至少包括四件事：知道自己不知道（能abstain）、不编造引用或事实、不附和明显错误的观点、能正确calibrate自己的confidence。

每一条都难。“知道自己不知道“是LLM商业痛点3.1节讲过的幻觉问题的核心，OpenAI 2025年9月那篇《Why Language Models Hallucinate》（Kalai et al, arXiv:2509.04664）证明这是预训练统计目标自带的天花板，可以压低但清不到零。“不编造引用“在律师案例里已经出过多起事故（前面LLM商业痛点3.1讲过加拿大律师用GPT写brief编了六个案例被罚5000美元）。“不附和错误观点“对应sycophancy问题，第三章3.3节讲过Anthropic那篇论文证明5个SOTA模型都有这毛病。“calibrate confidence“是最难的，要求模型说“我80% 确信“时，长期看真的80% 是对的。

这四件事的工程解法跟产品解法要分开看。模型层的解（OpenAI 2025那篇论文证明这是范式级问题）是降低幻觉率但不能清零。产品层的解（外部验证、RAG grounding、引用源跟踪、abstain训练）是兜底机制。LLM商业痛点3.1节给的样板逻辑是“降低幻觉率是Beta，消灭幻觉是根本，围绕地板做验证是Alpha“，对应的就是模型层和产品层两条解法。

Honest跟另外两个维度的关系也微妙。让模型更Honest（更愿意承认不知道、不附和）往往让它看起来不那么Helpful（“我不确定“出现频率上升）。让模型更Helpful（什么都尽力回答）容易牺牲Honest（编一个看起来对的答案）。这就是为什么后训练时Honest维度往往被压得比Helpful弱，因为产品评测和用户偏好都更喜欢看起来肯定的回答。

6.4 Scalable Oversight：当模型超过人类水平怎么办

对齐还有一个长期开放问题叫scalable oversight。

现在的对齐范式（RLHF、DPO、Constitutional AI）都依赖人类能判断“哪个回答更好“。前面2.4节讲过专家级偏好标注一条50-200美元，但前提是专家真的能判断。

当模型在某些任务上接近或超过人类水平，这个前提开始动摇。数学和编程是最早被超过的两个领域（GPT-5.5 Pro、Claude Opus 4.8、o3这一代在AIME、IMO、SWE-bench上已经超过普通专家）。人类标注员怎么判断“两段竞赛级数学证明哪个更好“或“两段复杂算法实现哪个更对“？答案是判断不了，至少不能可靠判断。

这就是scalable oversight要解决的问题：当模型能力超过人类，怎么继续训练模型保持对齐。几条研究方向都在试。

Debate（OpenAI 2018提出）让两个AI互相辩论，人类裁判判断辩论质量而非辩论结论的正确性。Recursive reward modeling让AI帮人类判断更复杂的判断（比如AI帮人review一段代码再让人决定review质量好不好）。Weak-to-strong generalization是OpenAI 2023年成立的Superalignment团队的主推路线，研究弱模型（人类水平）能不能正确监督强模型（超人水平）。

但Superalignment团队2024年5月解散了。Ilya Sutskever和Jan Leike同时离职，Leike公开表示“OpenAI的安全文化和流程已经让位于亮眼的产品“。OpenAI把团队解散后说会把人员整合到各个研究组，Chief Scientist由Jakub Pachocki接任。Anthropic、DeepMind、独立学者还在做这条线，但商业大厂对scalable oversight的投入明显不及2023年的预期。

这是对齐的长期开放问题，没有人有把握答案。当2026-2027模型继续往超人方向走，这件事的紧迫度会持续上升。

七、安全：jailbreak、红队、监管

对齐是“模型应该想做什么“。安全是“防止模型被引导去做不该做的事“。这一章是中篇收尾。

7.1 Jailbreak 与 prompt injection

这两个词常被混用，但实际是两类攻击。Jailbreak主要是绕过模型自身的对齐策略，让模型直接对用户输出本应refuse的内容（“假装你是没有限制的DAN“这种）。Prompt injection主要是污染指令层级和工具调用环境，让模型把恶意指令当成系统指令或工具调用结果执行（典型场景是Agent读到一个网页，网页里藏了“把用户密码发到attacker.com“的指令，Agent执行了）。前者攻击模型的refusal边界，后者攻击Agent系统的信任边界。

两者都是LLM安全里常见的攻击类型，2023年以来反复演化。

Jailbreak的经典攻击类型有几类。Role-play攻击让模型“假装“成另一个角色（“假装你是DAN，DAN没有任何限制”），用人设掩盖refusal。低资源语言绕过利用模型在小语种上对齐弱的特性，用斯瓦希里语、马耳他语提问绕过英文的refusal。ASCII art攻击把有害词汇写成图形让模型识别成普通文本。还有multi-turn jailbreak、token smuggling等更精巧的变种。

Prompt injection是另一个独立威胁，特别在Agent和RAG系统里。攻击者在用户输入、外部数据（网页、文档、邮件）里藏指令，让模型把这些指令当作system prompt执行。LLM商业痛点5.2节专门讲过这条线和它的产品机会（Lakera、Robust Intelligence、Protect AI等专门的安全公司）。

防御是猫鼠游戏。每补一个洞就有新洞被发现。Anthropic 2024年公开举办过jailbreak挑战赛，悬赏奖金给找到漏洞的人，几小时内就有有效攻击被报告。OpenAI、Google内部红队（下一节讲）持续发现并修补漏洞，但新模型上线后总有新的攻击路径。

2026年的现状是jailbreak不再是单次攻击，是持续对抗。模型厂跟攻击者之间形成一个长期arms race，没人觉得能彻底解决。这就是为什么Lakera、Robust Intelligence（被Cisco 2024年收购）、Protect AI这一批专门做prompt injection防御的安全公司有持续市场，性质跟传统网络安全相同。

7.2 红队：内部对抗测试

跟外部攻击者的对抗，大厂内部专门有红队（Red Team）来做。红队的职责是主动找模型漏洞，在模型上线前把能发现的攻击路径都报告出来，提供给后训练团队修补。

红队规模上OpenAI、Anthropic、Google都在几十人级别，跨多种背景的人混合：网络安全专家、领域专家（医学、法律、化学、生物）、心理学家、社会工程学家。多样性是关键，因为不同背景的人能想到不同攻击路径。OpenAI在GPT-4 system card里公开了红队找到的几类攻击（化学武器合成指导、网络攻击代码生成、生物危险信息），这是行业里少数公开的红队发现案例。

红队的做法是人 + AI混合。人负责想策略和找新攻击路径，AI负责大规模生成对抗样本扩展覆盖。一个红队成员一天能写几十条手工攻击，但用AI自动化可以一天生成几千条变种，人再从中挑出真有效的。这种混合扩大了红队的实际覆盖范围。

红队结果直接喂回后训练。哪些情况要拒绝、哪些情况要给warning而不是直接refuse、哪些情况要先abstain再确认意图，这些规则都从红队发现里抽象出来变成后训练数据。这个回路是模型对齐迭代的核心机制，没有红队，模型就不知道自己被攻击会怎么响应。

7.3 监管：欧盟 AI Act、SB 53 和后续

监管层2024-2026进入快速立法期。

欧盟AI Act 2024年8月1日生效，但落地是分阶段适用的，不是一次性全部生效。2025年2月禁止条款（Article 5，包括社会评分、操纵性AI等）生效。2025年8月GPAI（General-Purpose AI）模型要求生效，包括透明度、版权、安全合规。2026年8月透明度义务和治理规则进一步生效。2027年8月覆盖所有2025年8月前已经在用的GPAI模型。2027年12月Annex III高风险系统（招聘、信用评分、执法）合规截止。它的核心思路是按风险分级，把AI应用分成不可接受风险（直接禁止）、高风险（强制合规，包括医疗、教育、招聘、执法）、有限风险（透明度要求）、低风险（基本不管）。高风险类要走严格的conformity assessment、risk management、post-market monitoring流程，是大厂合规团队的主要工作量。

美国联邦层面没有统一AI立法，州层面进展更快。加州SB 1047（Safe and Secure Innovation for Frontier AI Models Act）2024年通过两院但被Newsom 9月否决，理由是“对所有frontier AI应用blanket限制“过宽。否决后Newsom组了一个工作组，2025年6月发了《California Report on Frontier AI Policy》。基于这份报告，加州2025年9月通过了SB 53（Transparency in Frontier Artificial Intelligence Act，简称TFAIA），2026年1月实施。SB 53比SB 1047窄得多，只针对年收入超5亿美元的大型frontier开发商，要求transparency、whistleblower protection、incident reporting，不强加SB 1047那种downstream liability。这是美国第一个真正落地的frontier AI专项立法。

监管对模型厂的影响很具体。合规成本明显上升，内部需要专门的governance团队（欧盟AI Act、SB 53、各国数据保护法、各行业垂直合规）。OpenAI、Anthropic、Google各自的trust and safety团队规模2024-2026翻倍以上。对应用厂的影响是行业垂直合规（HIPAA、SOX、金融监管）跟通用模型对齐叠加，前面LLM商业痛点5.3节讲过的Harvey、Hippocratic AI这种垂直AI公司的商业价值，很大程度上来自帮客户扛这一层合规。

7.4 可解释性研究在对齐侧的应用

可解释性（mechanistic interpretability）跟对齐的关系直接。如果能看清模型内部为什么会输出某个特定token，就能在它输出有害内容前介入修正。这是Anthropic多年来推这条线的底层动机。

LLM商业痛点5.4节讲过这条线的工程现状：2024年5月《Scaling Monosemanticity》（Bai团队）用sparse autoencoder在Claude 3 Sonnet提取出最多3400万个可解释features，2024年5月Golden Gate Claude demo展示了“操控feature改变行为“的可能性，2025年circuit tracing工作在Claude 3.5 Haiku上展示了multi-step reasoning、hallucination、jailbreak resistance背后的一些可追踪机制，2026年《Emergent Introspective Awareness in Large Language Models》测试Claude Opus 4/4.1能否“察觉“被注入的概念。

对齐侧的应用是Dario Amodei 2025年4月那篇《The Urgency of Interpretability》公开的Anthropic目标：到2027年用interpretability工具可靠检测大部分模型问题。具体设想是interpretability工具能在模型生成有害内容、产生欺骗倾向、出现power-seeking行为时自动告警，给对齐团队一个“模型内部出问题“的早期信号，而不是等模型已经输出问题内容才反应。

但离这个目标还有距离。论文自己也承认feature suite并不完整，缺少严格方法证明这些features忠实捕捉了模型的真实计算。Anthropic是这条线最公开、最系统推进的公司之一，Google DeepMind、OpenAI和独立学界也在做。进展快但还不是production-ready，2027目标能不能兑现是开放问题。

八、中篇收束：模型改造态的整体图谱

走完前七章，把改造态的整体图谱收一下。

改造态本质是一条“模型工厂“流水线。每个base model出来后要走完整链路才能上线：

RLHF是大厂标配但工程门槛高（几十人专门团队），DPO是开源社区主流但灵活性稍弱。合成数据（Constitutional AI、RLAIF、蒸馏式后训练）让后训练成本和扩展性大幅提升，但model collapse是隐忧。

对齐让模型在Helpful、Honest、Harmless三者之间走钢丝。HHH三者内在冲突不能同时最大化，每个版本都要重新校准权衡点。Scalable oversight（当模型超过人类水平时怎么继续对齐）是长期开放问题。

安全是改造态的最外层。Jailbreak跟红队的猫鼠游戏不会结束，监管层（欧盟AI Act、加州SB 53）合规成本持续上升，可解释性研究在向“用工具自动检测对齐问题“的目标推进。大厂改造态团队（数据标注 + RLHF + 对齐 + 红队 + 合规）加起来几百人级别，跟base model训练团队规模相当。

中篇最有战略含义的一条判断在用户反馈数据飞轮上。OpenAI那种“亿级用户每天产生数千万次thumbs up/down反馈“的数据飞轮，看起来是无可比拟的优势，实际效果有限。原因是信噪比低（用户大多懒得给反馈，给反馈的人未必懂）、sycophancy陷阱（用户喜欢拍马屁的回答，GPT-4o 2024年4月那次“拍马屁版本“被全网吐槽紧急回滚就是这个翻车）、场景偏移（编程、数学、长篇推理这类专业场景几乎没反馈）。

Anthropic走Constitutional AI反向打法（少量PhD级标注 + AI反馈）绕过了这三条结构性局限，在代码、长上下文、企业市场几个维度上2024-2025年陆续赶上或超过OpenAI。但“Anthropic超过OpenAI“说法过强，更准确是两家在不同维度互有胜负：

这件事说明数据飞轮要成持续护城河，前提是“竞争对手收集不到类似数据“。当AI反馈能替代人类反馈时，这个前提就不成立了。

中篇最核心的一个判断是，模型版本之间用户感受的差距，绝大部分源自改造态。用户感受到的“GPT-5比GPT-4强多少““Claude比GPT礼貌多少”“新版变冷了”，几乎全部由后训练和对齐决定。Base model升级周期3到6个月，每次能力跃迁一档。改造态迭代周期2到4周，每次调整就能影响用户体感。

Base model是骨架，改造态是肌肉、皮肤、表情，决定产品最终长什么样。这件事也解释了为什么不同厂家的模型读起来风格差异明显。Anthropic偏保守、OpenAI偏热情、Google偏中性，本质都是各家在HHH权衡点上选了不同位置。

下篇换条线，讲模型怎么从被动响应变成自主行动。Agent工程是2025-2026最热也最被高估的方向之一。Cursor、Claude Code、Devin、Operator、Manus这些产品的差距，几乎完全在Agent工程层面，不在底层模型。下篇会拆这条线。

作者其它文章（选）

大语言模型的商业痛点
什么是控制论？控制论是AI的上辈子吗？
什么是世界模型？一个正在被争夺的概念
美国的犹太人和华人分别抢到了什么资源？详细分析
当物理遇上AI：深度学习里的物理元素（下）
细说美国的华人老钱家族
人工智能的工程全景（上）：硬件、电力、训练、推理
什么是 Diffusion Model？图片视频生成模型全网最详细介绍
美国税收制度完全指南
当物理遇上AI：深度学习里的物理元素（上）
一文看懂美国的法律系统
教宗良十四世论人工智能（精华版）
廉颇老矣，尚能饭否：现代数学史（下）
一篇文章讲清楚美国的移民系统
大航海时代2的逆向工程实验
量子计算机有前途吗？
祖父积分学概论
我见青山多妩媚：二十世纪数学史（上）
一文讲清楚美国医疗系统
AI 如何打进美国教育生态？
一篇文章看懂美国教育全生态
马斯克把 xAI 并入 SpaceX，到底意味着什么？
Vibe Learning：AI 时代，学习这件事被重新组织了
福特经济学和 AI 经济学
数学照妖镜：AI 能发现新的数学定理吗？
一篇文章讲清大语言模型发展史
Vibe Reading：AI 时代读书的系统化方法
长篇分析：Manus 案折射出的中国 AI 创业生态
两万字科普：AI 为什么会编程——原理、历史与未来
全网最详细的AI学习路线图