训练利润最优LLM的理论

arXiv cs.LG 2026/05/19 04:00 论文

llm-training scaling-laws economic-model profit-optimization machine-learning ai-economics

摘要

本文提出了一种经济模型，结合缩放定律与微观经济学理论，分析大语言模型在利润最优情况下的训练策略，权衡模型质量、训练成本与硬件效率等因素。

arXiv:2605.16430v1 公告类型：新摘要：扩展大语言模型需要巨大的计算资源，近期人工智能的进步伴随着大量资本支出。虽然已经确定扩展LLM能可靠提升模型质量（以损失函数或下游评估量化），但这些质量改进如何转化为潜在收入，以及收入增长是否能抵消更大规模训练和推理的成本，尚不明确。本研究通过结合缩放定律与微观经济学理论，构建了一个经济模型来描述LLM训练企业的理性行为。在我们的企业行为模型中，增加参数和训练令牌可提升LLM质量，从而吸引更多潜在用户采用，每个用户都有使用LLM的质量阈值。另一方面，增加参数和训练令牌都会带来额外成本。我们在计算受限和数据受限两种体制下分析该模型的利润最大化问题。在计算受限体制下，最优模型大小和令牌预算与硬件效率$E$（FLOPs/美元）呈近乎线性关系；总训练成本则以亚二次方规模随$E$增长。数据效率的提升会激励更大的模型和更高的训练支出。当数据量限制为$D$时，利润最优的训练支出与$D^2/E$成正比，即随数据增加而增加，随硬件效率（以及数据效率）提高而降低。最后，我们分析了训练支出的实际趋势：当前趋势与计算受限体制下最宽松的模型变体一致，但在数据受限体制或假设硬件进步停滞的情况下并非利润最优。总体而言，我们的结果为利润最优的LLM训练提供了理论依据，为批判性地参与行业声明和支持长期经济决策奠定了基础。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:42

# 训练利润最优LLM的理论 来源：https://arxiv.org/html/2605.16430 Sophie Hao* 波士顿大学 马萨诸塞州波士顿，美国 [email protected] 与 William Merrill 艾伦人工智能研究所 华盛顿州西雅图，美国 [email protected] ###### 摘要 扩展大规模语言模型（LLM）需要巨大的计算资源，近年来人工智能的进步与大量的资本支出相伴而行。虽然已经确定扩展LLM可以可靠地提高模型质量（以损失或下游评估量化），但尚不清楚这些质量改进如何转化为潜在收入，以及收入增长是否能抵消更大规模训练和推理的成本。在这项工作中，我们通过将缩放定律与微观经济学理论相结合，开发了一个用于描述LLM训练公司理性行为的经济模型。在我们的模型下，LLM质量可以通过增加参数和训练令牌来提高，从而增加潜在消费者的采用率，每个消费者都有使用LLM的质量阈值。另一方面，额外的参数和训练令牌都会产生额外成本。我们在计算限制和数据限制两种情况下分析了该模型的利润最大化问题。在计算限制情况下，最优模型大小和令牌预算以近线性速率跟踪硬件效率（FLOPs/$）；总训练成本随后以次二次方规模随硬件效率变化。数据效率提升会激励更大的模型和更高的训练支出。当受限于固定数据量D时，利润最优的训练支出按D²/E的比例缩放，即随着数据增加而增加，但随硬件效率（以及数据效率）提高而**减少**。最后，我们分析了训练支出的实际趋势：当前趋势与我们最宽松的模型变体在计算限制情况下一致，但在数据限制情况下或假设硬件进步停滞时，并非利润最优。总体而言，我们的结果提供了利润最优LLM训练的理论，为批判性地审视行业声明和支持长期经济决策奠定了基础。

## 1 引言

截至撰写本文时，大量的资本支出已投入训练LLM。从高层次看，这种赌注的动机来自经验现象*缩放定律*：使LLM更大并在更多数据上训练，会单调地提高其质量（以训练损失衡量）（Kaplan等人，2020 (https://arxiv.org/html/2605.16430#bib.bib9)；Hoffmann等人，2022 (https://arxiv.org/html/2605.16430#bib.bib8)）。更高的LLM质量与更好的下游任务性能相关联（Wei等人，2022 (https://arxiv.org/html/2605.16430#bib.bib16)）。这表明扩展LLM训练可能会产生对许多潜在用户有用的模型，从而为训练者带来利润。另一方面，通过扩大规模来提升LLM质量会使其更昂贵，无论是原始计算（"计算"，以FLOPs衡量）还是美元方面。训练LLM所需的计算量与参数数量n和训练数据预算d成正比，因此同时扩大两者会使计算量呈二次方增长。推理计算量与n成正比，但不随d变化。随着n和d跃升数个数量级，训练和推理所需的计算量也呈指数级增长。虽然质量改进在这些变量上是单调的，但也是*递减的*，这引出一个问题：加倍投入使训练更昂贵以追逐微小的质量改进，是否能使LLM训练长期盈利？

硬件效率(FLOPs/$) → LLM大小(参数) → 硬件效率(FLOPs/$) → 训练支出($) → 参数效率(LLM质量/参数) → LLM大小(参数) → 参数效率(LLM质量/参数) → 训练支出($) →
图1：我们的模型预测，假设Chinchilla参数指数α≈β≈0.3，利润最大化的LLM公司会使其LLM训练支出随硬件效率呈次二次方增长，并与参数效率成反比。图中显示γ=-1的情况（γ将在2.1节 (https://arxiv.org/html/2605.16430#S2.SS1)中定义）。

在本文中，我们通过为LLM公司开发一个*利润最优*训练行为的理论来解决这个未解决的问题。在我们的模型下，公司选择其模型大小n和训练数据预算d。n和d越大，产生的LLM质量越高，从而增加对LLM的需求，使公司能够对每个推理令牌收取更高费用。另一方面，更大的n和d会带来额外的训练和推理成本，这表明存在某个*利润最优的* n*, d*，即最大化利润的这些变量选择。我们将n*, d*描述为外生变量（如硬件效率（FLOPs/$）、LLM训练方法的参数和数据效率以及各种自然常数）的函数。

我们的第一个贡献是形式化一个在市场上拥有垄断地位的LLM公司的利润最大化问题（第2节 (https://arxiv.org/html/2605.16430#S2)）。LLM质量以及训练和推理成本可以相对无争议地衡量；这里的主要挑战是精确定义LLM质量改进如何影响需求和令牌价格。我们以一种通用方式形式化这一点：每个消费者都有一个最低质量阈值，使LLM对他们有用（例如，它充分解决了与他们领域相关的所有任务）。然后，质量与需求之间的关系归结为消费者中该质量阈值的分布问题。我们做出一般性假设，即它遵循幂律∝1 - q^{-γ}，其中指数γ控制反需求随质量递减的程度。遵循经济学中的标准思想（Acemoglu，2025 (https://arxiv.org/html/2605.16430#bib.bib1)），我们假设反需求随质量递减或最多线性，即γ < -1。这个弱假设足以证明我们的主要结果。

在形式化了利润最大化问题之后，第4节 (https://arxiv.org/html/2605.16430#S4)描述了*计算限制*情况下的利润最优LLM训练，即LLM公司受限于训练和推理成本但不受可用数据量限制的情况。我们发现最优模型大小n*和数据预算d*随硬件效率E以近线性速率E^{1/(1+αγ)}增长，其中α是Chinchilla参数指数（Hoffmann等人，2022 (https://arxiv.org/html/2605.16430#bib.bib8)）。因此，总训练计算量C*_train随E以E^{\frac{1-αγ}{1+αγ}}的速率缩放。我们还考虑了LLM训练方法的作用：根据γ的符号，参数效率的改进可以增加或减少C*_train。相反，数据效率改进会减少n*但保持C*_train固定。此外，在第5节 (https://arxiv.org/html/2605.16430#S5)中，我们描述了在数据限制情况下的利润最优缩放，其中规定了固定的最大数据预算D。这里，n*随D以近线性速率缩放，与E无关。值得注意的是，训练支出C*_train大致随D二次方增长，但随E*减少*。n*和C*_train都随着数据效率的进步而改善，但在数据限制情况下随着参数效率的进步而下降。最后，在第6节 (https://arxiv.org/html/2605.16430#S6)中，我们探讨了我们的模型下利润最优LLM训练的特征如何与训练支出及相关变量的经验增长趋势相匹配。以γ=0作为弱先验，我们发现当前训练支出超过计算限制情况下的利润最优值。求解使当前趋势成为利润最优的γ值，我们得到γ̂ ≈ -0.77，这意味着反需求几乎不随LLM质量递减。因此，存在某种版本的模型，其中当前趋势与计算限制情况下的利润最优训练行为一致。总体而言，我们将计算最优训练框架（Hoffmann等人，2022 (https://arxiv.org/html/2605.16430#bib.bib8)）扩展到建模利润最优LLM训练；我们还全面描述了计算限制和数据限制情况下的利润最优训练。我们希望我们的结果能够为预测LLM训练的未来发展以及批判性地审视行业趋势提供一个严格的框架；为此，我们包含了对我们结果的启示、基本假设以及与其他关于LLM缩放盈利性叙述的协调的全面讨论（第7节 (https://arxiv.org/html/2605.16430#S7)）。

## 2 设定：LLM公司与利润最大化

在微观经济学中，*公司*是接受*投入要素*并生产*产出品*出售给消费者的实体。例如，披萨店是一家公司，其投入要素是披萨配料、租金和劳动力，产出品是披萨。*厂商理论*旨在描述公司在其投入消耗量和产出生产量方面的行为，假设每个公司在一个竞争性或非竞争性的市场中最大化利润。¹¹¹有关本文相关的微观经济学理论概述，请参见Varian and Melitz (2024 (https://arxiv.org/html/2605.16430#bib.bib15))。在本节中，我们开发了一个微观经济学模型，描述训练LLM并利用它运行AI聊天机器人服务的公司行为。公司的投入包括*训练数据*和*计算*，产出包括出售给消费者的*令牌*。我们的目标是预测关于计算效率提升预期与公司对扩展投资之间关系的结论。

我们的模型具有以下特征。由于本文重点在于LLM扩展而非竞争效应，我们假设LLM公司具有垄断力。LLM公司通过决定生产并销售多少令牌来最大化利润，受制于技术约束和消费者需求。此外，LLM公司决定投入多少数据和计算来训练LLM。投入要素的更大投入赋予LLM公司更*高质量*的LLM，这反过来增加了对LLM令牌的需求。

### 2.1 消费者行为

ω f(q) → ω f(q+Δq) → 
令牌 价格（$/令牌）
图2：由质量q（黑色）和q+Δq（红色）的LLM生成的令牌的反需求函数，其中Δq>0。对于任何特定水平的LLM质量q，对令牌的需求是线性的，ω ln(q)是令牌可以卖出的最高可能价格。训练更好的模型会增加对该模型令牌的需求。

LLM是通用、开放式AI模型，可应用于可能无限范围的*任务*。更高质量（以逆下一个令牌预测损失衡量）的LLM已被证明能在更广泛的任务范围（Brown等人，2020 (https://arxiv.org/html/2605.16430#bib.bib6)；Wei等人，2022 (https://arxiv.org/html/2605.16430#bib.bib16)）上实现更好的性能（Kaplan等人，2020 (https://arxiv.org/html/2605.16430#bib.bib9)；Srivastava等人，2023 (https://arxiv.org/html/2605.16430#bib.bib14)）。相应地，AI聊天机器人服务通常按推理令牌定价，由更高质量LLM生成的令牌收取更高的价格。在厂商理论中，消费者行为由*反需求函数*描述，该函数根据售出的商品数量t预测商品的单位价格p。遵循*需求定律*，我们假设p随t递减。此外，由于更高质量的LLM可以应用于更广泛的任务，我们假设p随某种LLM质量度量q递增，目前q保持通用。我们通过提出以下*拟线性*反需求函数来捕捉这两种依赖关系：

p(t,q) = ω f(q) - δ t，

其中f(q)是从质量到反需求的某个*连接函数*，必须严格单调且关于q可微。我们的分析大部分适用于满足这些性质的任何f选择，但三个自然的选择是f(q) = ln(q)，f(q) = f_γ(q) (γ>0)，以及f(q) = f_γ(q) (γ<0)，其中

f_γ(q) = (1/γ)(1 - q^{-γ})。

所有这些都满足上述公理，并且只要γ > -1，就会产生递增模型质量的递减回报。设定γ = -1使反需求与质量呈线性关系。此外，我们将看到它们都可以被动机为同一通用框架的特殊情况。

q f_{-1}(q) → q f_0(q) → q f_1(q) →
图3：反需求连接函数由参数γ参数化，γ控制LLM质量生成的令牌需求经历递减回报的程度。

#### 连接函数的推导。我们从以下假设推导出f_γ(q)的一般形式，这些假设与Michaud等人 (2023 (https://arxiv.org/html/2605.16430#bib.bib12)) 的*量化模型*框架有些相似：

1. LLM的每个潜在消费者都有一个*保留质量*q* > 0，当且仅当LLM的质量q ≥ q*时，他们才会为LLM付费。
2. 这意味着保留质量的*密度*，给出随着质量提高任务被解锁的速率。该密度遵循幂律1/q*^{1+γ}，对于某个 -1 < γ。
3. 可以对LLM令牌收取的最大价格与愿意购买该令牌的消费者数量成正比；即，满足q ≥ q*的消费者数量。

写成p(t,q) = ω f_γ(q) - δ t，我们有

f_γ(q) = max_{t≥0} p(t,q)/ω = ∫_0^q (1/q*^{1+γ}) dq*。

我们在附录A (https://arxiv.org/html/2605.16430#A1)中展示，该公式以上述方式恢复f_γ(q)的定义。

### 2.2 LLM缩放

Leontief (σ=0) → Chinchilla (σ=0.76) → 完全替代 (σ=∞)
n d → n d → n d →
图4：缩放定律的替代弹性σ衡量其等质量曲线的曲率，其中q(n,d)恒定。当σ<1时，我们说n和d是*互补品*，当n和d一起缩放时质量最优。当σ≥1时，n和d是*替代品*，意味着它们可以相互交换而不牺牲质量。

关于LLM缩放的研究表明，LLM在下一个令牌预测上的损失l由LLM的*模型大小*n（以可训练参数数量计）和*训练数据大小*d（以令牌计）决定（Kaplan等人，2020 (https://arxiv.org/html/2605.16430#bib.bib9)；Hoffmann等人，2022 (https://arxiv.org/html/2605.16430#bib.bib8)），其中更高质量的模型通常具有更低的损失。Hoffmann等人 (2022 (https://arxiv.org/html/2605.16430#bib.bib8)) 特别表明模型大小和训练数据大小

训练利润最优LLM的理论

相似文章

LLM作为噪声通道：模型容量与缩放定律的香农视角

使用大语言模型生成稳健的优化模型组合

神经语言模型的缩放规律

基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

LLM持续预训练中最佳超参数的可预测缩放规律

提交意见反馈