项目反应缩放定律:一种用于高效且可泛化的神经缩放估计的测量理论方法
摘要
介绍项目反应缩放定律(IRSL),该定律整合项目反应理论,可高效估计神经缩放定律,将所需评估问题数量减少99.9%,同时达到相当准确性。
arXiv:2606.07616v1 公告类型:新 \n摘要:缩放定律为理解语言模型(LM)的性能提供了基本框架,但推导这些定律需要在数千个检查点或数百万个推理样本上进行代价高昂的评估。为了解决这一问题,我们提出了项目反应缩放定律(IRSL),这是一个将项目反应理论(IRT)集成到缩放定律框架中的统一框架。与传统方法将每个模型-基准对孤立处理不同,IRSL 将潜在模型能力与问题特征解耦,将 $M$ 个模型和 $N$ 个问题的缩放定律估计分解为 $O(M \\times N)$ 到 $O(M + N)$ 的参数复杂度显著降低。我们通过 Beta-IRT 实例化 IRSL,该方法利用语言模型的实证概率响应——例如预训练中的标记概率和测试时采样中的通过率——来捕获比二元响应更丰富的信号。我们在两种主流的缩放范式上验证了我们的方法:(1)预训练下游缩放,使用了来自 10 个基准的 6,612 个 LM 检查点和 37,682 个问题;(2)测试时缩放,使用了来自 4 个基准的 12 个 LM 和 120 个问题,每个问题最多 2,500 个样本。在对现有模型响应进行一次校准后,IRSL 仅使用每个基准 50 个问题(减少 99.9%)即可产生更可靠的缩放估计,达到与传统方法相当或更优的决策准确性。此外,我们表明估计得到的潜在模型能力具有泛化性,能够在共享相同测量目标的基准之间进行准确的性能预测。
查看缓存全文
缓存时间: 2026/06/09 08:51
# 项目反应缩放定律:一种用于高效且可泛化的神经缩放估计的测量理论方法
来源:https://arxiv.org/html/2606.07616
###### 摘要
缩放定律为理解语言模型(LM)的性能提供了基础框架,然而,推导这些定律需要在数千个检查点或数百万个推理样本上进行极其昂贵的评估。为了解决这个问题,我们引入了项目反应缩放定律(IRSL),这是一个将项目反应理论(IRT)整合到缩放定律框架中的统一方法。与将每个模型-基准对孤立处理的传统方法不同,IRSL将潜在模型能力与问题特征分离,将对MM个模型和NN个问题的缩放定律估计进行因式分解,从而将参数复杂度从O\(M×N\)显著降低到O\(M+N\)。我们通过Beta-IRT实例化IRSL,该方法利用LM的经验概率响应(例如预训练中的token概率和测试时采样中的通过率)来捕捉比二元响应更丰富的信号。我们在两种常见的缩放范式上验证了我们的方法:(1)预训练下游缩放,使用来自10个基准的6,612个LM检查点和37,682个问题;(2)测试时缩放,使用来自4个基准的12个LM和120个问题,每个问题最多2,500个样本。经过对现有模型响应的一次性校准,IRSL仅需每个基准50个问题(减少99.9%)就能产生更可靠的缩放估计,在决策准确性上与或优于传统方法。此外,我们展示了估计出的潜在模型能力具有泛化性,能够对共享相同测量目标的基准进行准确的性能预测。
AI测量,缩放定律,AI评估
## 1 引言
LM1\\text\{LM\}\_\{1\} LM2\\text\{LM\}\_\{2\} ⋮\\vdots LMM\\text\{LM\}\_\{M\} 新1 新2 基准1 基准2 ⋯\\cdots\\; 基准B 响应矩阵R\\mathbf\{R\} \(M×N M\\!\\times\\!N\) IRT σ\\sigma \(\\left\(\\rule\{0\.0pt\}\{71\.13188pt\}\\right\. θ1\\theta\_\{1\} θ2\\theta\_\{2\} ⋮\\vdots θM\\theta\_\{M\} θ^1\\hat\{\\theta\}\_\{1\} θ^2\\hat\{\\theta\}\_\{2\} θ\\bm\{\\theta\} −\\- ⋯\\cdots z1z\_\{1\} z2z\_\{2\} zNz\_\{N\} z\\bm\{z\}\) \\left\.\\rule\{0\.0pt\}\{71\.13188pt\}\\right\) 缩放变量 xx θ^\\hat\{\\theta\} θ^new\\hat\{\\theta\}\_\{\\text\{new\}\} θ\\theta vs. 缩放变量 xx 预测xx 性能 易zz 中zz 难zz R^ij\(x\)=σ\(θi\(x\)−zj\)\\hat\{R\}\_\{ij\}\(x\)=\\sigma\\\!\\bigl\(\\theta\_\{i\}\(x\)\-z\_\{j\}\\bigr\)
图1:IRSL通过将模型能力与问题难度分解,将缩放定律估计从O\(M×N\)简化为O\(M+N\)。*左图:*响应矩阵R\\mathbf\{R\}记录了跨LM和基准问题的经验概率;新LM的稀疏行展示了通过自适应测试实现的查询效率。*中左图:*IRT将R\\mathbf\{R\}分解为LM能力θ\\bm\{\theta\}(橙色)和问题难度z\\bm\{z\}(蓝色),使得 Rij≈σ\(θi−zj\)。*中右图:*估计的θ\\theta值随缩放变量xx(例如,预训练计算量或测试时样本数)可预测地缩放。*右图:*将θ\(x\)与校准后的z重新组合,得到每个问题的缩放预测R^ij\(x\)=σ\(θi\(x\)−zj\),不同难度的问题产生不同的曲线。
缩放定律为预测语言模型(LM)的性能和分配资源提供了一个原则性框架。我们关注两种主要形式:预训练下游缩放,刻画下游任务性能如何随预训练计算量提升而改善(Kaplan等人,2020 (https://arxiv.org/html/2606.07616#bib.bib20);Hoffmann等人,2022 (https://arxiv.org/html/2606.07616#bib.bib22);Biderman等人,2023 (https://arxiv.org/html/2606.07616#bib.bib2);Grattafiori等人,2024 (https://arxiv.org/html/2606.07616#bib.bib63));以及测试时缩放,描述性能如何随独立推理样本数量的增加而提升。测试时缩放涵盖了多种策略,包括思维链提示、思维树搜索、重复采样和基于强化学习的推理(Brown等人,2024 (https://arxiv.org/html/2606.07616#bib.bib16);Hughes等人,2024 (https://arxiv.org/html/2606.07616#bib.bib47);Levi,2024 (https://arxiv.org/html/2606.07616#bib.bib70));在本工作中,我们特别关注重复采样范式。
推导这些定律的计算成本很高。预训练缩放研究通常需要在数万个问题上评估数千个模型检查点。同样,建立测试时缩放定律需要大量查询:模型数量×\\times问题数量×\\times每个问题的样本数量(通常为 102×105×104)。因此,实际研究往往局限于小规模实验(Chen等人,2024 (https://arxiv.org/html/2606.07616#bib.bib39);Brown等人,2024 (https://arxiv.org/html/2606.07616#bib.bib16),2020 (https://arxiv.org/html/2606.07616#bib.bib68))。从这种有限规模推导出的定律可能表现出反直觉的行为。例如,Brown等人(2024 (https://arxiv.org/html/2606.07616#bib.bib16))经验性地发现一种幂律测试时缩放关系,但正如Schaeffer等人(2025 (https://arxiv.org/html/2606.07616#bib.bib15))所示,这种关系仅对特定的、结构不良的单样本成功率分布成立。
为了解决评估成本问题,我们转向项目反应理论(IRT)。IRT源于心理学和人类测试,是一个概率框架,用于模拟测试者与问题之间的交互,以显著减少可靠估计测试者能力所需的查询数量而闻名。它在人类测试(Lord,1980 (https://arxiv.org/html/2606.07616#bib.bib35))和最近的LM排行榜评估(Truong等人,2025 (https://arxiv.org/html/2606.07616#bib.bib7);Hofmann等人,2025 (https://arxiv.org/html/2606.07616#bib.bib49);Kipnis等人,2025 (https://arxiv.org/html/2606.07616#bib.bib58))中都取得了巨大成功。在此基础上,我们引入了项目反应缩放定律(IRSL),这是一种将IRT整合到缩放定律框架中的方法论。IRSL利用IRT的特性将LM的能力与问题的特征分离,将问题分解为MM组LM特定参数和NN组问题特定参数,从而将复杂度从O\(M×N\)降低到O\(M+N\)。这种分解使得估计出的能力能够在共享相同测量目标的基准之间迁移。
先前IRT的应用通常依赖于二元响应¹¹¹测试者对问题的响应要么正确要么错误。然而,与人类测试不同,LM提供了经验概率响应。在预训练中,LM产生的token概率提供了比离散准确性更平滑的缩放信号(Schaeffer等人,2024 (https://arxiv.org/html/2606.07616#bib.bib38);Magnusson等人,2025 (https://arxiv.org/html/2606.07616#bib.bib41))。在测试时采样中,LM提供了从多次独立推理中平均得到的每次尝试成功率。这种经验概率响应比二元响应传达了更丰富的信息。为了利用这些信息,我们通过Beta-IRT实例化IRSL,它使用Beta损失来建模这些经验概率响应。虽然IRSL是一个通用框架,与任何IRT模型兼容,但Beta-IRT使其能够利用LM独有的更丰富的概率信号。
我们的贡献如下:
- •我们进行了一项大规模研究,涉及来自10个基准的6,612个LM检查点和37,682个问题,以证明我们的预训练下游IRSL的有效性。我们表明它能够在有限的查询预算下产生可泛化且稳健的缩放行为估计。
- •在来自4个基准的120个问题上的12个LM上(每个问题最多2,500个样本),初步证据表明IRSL同样适用于测试时缩放。
通过将缩放定律嵌入IRT框架(此处通过Beta-IRT实例化),我们的方法为传统的聚合性能缩放提供了一种理论上合理且经验验证过的替代方案。我们的代码发布在https://github.com/aims-foundations/irsl。
## 2 相关工作
#### 预训练损失缩放定律
许多神经网络在预训练损失关于计算量、数据或参数的函数上表现出幂律缩放(Hestness等人,2017 (https://arxiv.org/html/2606.07616#bib.bib26);Kaplan等人,2020 (https://arxiv.org/html/2606.07616#bib.bib20);Bahri等人,2021 (https://arxiv.org/html/2606.07616#bib.bib27);Hernandez等人,2021 (https://arxiv.org/html/2606.07616#bib.bib28);Hoffmann等人,2022 (https://arxiv.org/html/2606.07616#bib.bib22);Muennighoff等人,2024 (https://arxiv.org/html/2606.07616#bib.bib23);Brown等人,2020 (https://arxiv.org/html/2606.07616#bib.bib68))。
#### 下游性能缩放定律
与预测损失不同,从规模预测下游性能通常更难(Lourie等人,2025 (https://arxiv.org/html/2606.07616#bib.bib40);Schaeffer等人,2024 (https://arxiv.org/html/2606.07616#bib.bib38))。然而,最近的工作表明,这可以基于一个两步预测来完成,该预测将规模到损失以及损失到下游性能的预测串联起来(Biderman等人,2023 (https://arxiv.org/html/2606.07616#bib.bib2);Magnusson等人,2025 (https://arxiv.org/html/2606.07616#bib.bib41);Gadre等人,2024 (https://arxiv.org/html/2606.07616#bib.bib29))。
#### 测试时缩放定律
测试时缩放定律描述了模型在基准上的性能(例如,成功率)如何随着推理时抽取的随机样本数量增加而提升,通常遵循幂律(Brown等人,2024 (https://arxiv.org/html/2606.07616#bib.bib16);Snell等人,2024 (https://arxiv.org/html/2606.07616#bib.bib66);Hughes等人,2024 (https://arxiv.org/html/2606.07616#bib.bib47))。后来的工作表明,这种幂律关系仅对单样本成功率中结构不良的响应分布成立(Schaeffer等人,2025 (https://arxiv.org/html/2606.07616#bib.bib15);Levi,2024 (https://arxiv.org/html/2606.07616#bib.bib70))
#### 高效LM评估
最近有几项工作采用项目反应理论(IRT)作为使用二元响应和Bernoulli损失的LM评估的基础,我们将其称为Binary-IRT。(Truong等人,2025 (https://arxiv.org/html/2606.07616#bib.bib7);Hofmann等人,2025 (https://arxiv.org/html/2606.07616#bib.bib49);Kipnis等人,2025 (https://arxiv.org/html/2606.07616#bib.bib58);Polo等人,2024 (https://arxiv.org/html/2606.07616#bib.bib60))。Binary-IRT已被证明优于许多高效评估方法,如Anchor Points(Vivek等人,2024 (https://arxiv.org/html/2606.07616#bib.bib71))、SMART(Gupta等人,2025 (https://arxiv.org/html/2606.07616#bib.bib72))、MAGI(Paech,2024 (https://arxiv.org/html/2606.07616#bib.bib73))和Stratified Sampling(Perlitz等人,2024 (https://arxiv.org/html/2606.07616#bib.bib74))。我们的贡献是将此框架整合到缩放定律估计场景中,并进一步使用Beta-IRT,它利用LM独有的经验概率响应,以实现优于Binary-IRT的性能。
#### 连续IRT模型
传统IRT依赖于二元响应。Chen等人(2019 (https://arxiv.org/html/2606.07616#bib.bib69))提出了β3\\beta^\{3\}-IRT,它使用三参数Beta分布来建模连续响应。我们的Beta-IRT不同之处在于,我们通过标准的IRT逻辑函数σ\(d\(θ−z\)\)参数化Beta分布的均值,保留了能力θ\\theta和难度zz的可解释性,同时自然地与缩放定律估计耦合。IRSL的关键新颖之处不在于用于评估的IRT本身,而在于将IRT整合到用于预测的缩放定律框架中。
## 3 方法
项目反应理论(IRT)提供了一个优雅的数学框架来建模LM与基准问题的交互。我们展示了在该框架下,各种已知的缩放定律如何自然产生,以及该框架如何促进高效且可泛化的缩放定律估计。我们在表1 (https://arxiv.org/html/2606.07616#S3.T1)中展示了缩放定律的定义、传统拟合方法和基于IRT的拟合方法。
\\rowcolorheaderbg 定义 传统拟合方法 基于IRT的拟合方法 预训练 Acc\\mathrm\{Acc\} Acc\(i,D\)=1N∑j=1NYij\\mathrm\{Acc\}\(i,\{\\mathcal\{D\}\}\)=\\frac\{1\}\{N\}\\sum\_\{j=1\}^\{N\}Y\_\{ij\} a⋅σ\(b⋅\(α⋅FLOP−β\+γ−l0\)\)\+c a\\cdot\\sigma\(b\\cdot\(\\alpha\\cdot\\text\{FLOP\}^\{\-\\beta\}\+\\gamma\-l\_\{0\}\)\)\+c 1N∑j=1Nσ\(dj⋅\(a⋅log\(FLOPi\)\+b−zj\)\) \\frac\{1\}\{N\}\\sum\_\{j=1\}^\{N\}\\sigma\(d\_\{j\}\\cdot\(a\\cdot\\log\(\\mathrm\{FLOP\}\_\{i\}\)\+b\-z\_\{j\}\)\) 预训练 pCorrect Choice\\operatorname\{p\_\{\\text\{Correct Choice\}\}\} pCorrect Choice\(i,D\)=1N∑j=1NpCorrect Choice\(i,j\) \\operatorname\{p\_\{\\text\{Correct Choice\}\}\}\(i,\{\\mathcal\{D\}\}\)=\\frac\{1\}\{N\}\\sum\_\{j=1\}^\{N\}\\operatorname\{p\_\{\\text\{Correct Choice\}\}\}\(i,j\) a⋅σ\(b⋅\(α⋅FLOP−β\+γ−l0\)\)\+c a\\cdot\\sigma\(b\\cdot\(\\alpha\\cdot\\text\{FLOP\}^\{\-\\beta\}\+\\gamma\-l\_\{0\}\)\)\+c 1N∑j=1Nσ\(dj⋅\(a⋅log\(FLOPi\)\+b−zj\)\) \\frac\{1\}\{N\}\\sum\_\{j=1\}^\{N\}\\sigma\(d\_\{j\}\\cdot\(a\\cdot\\log\(\\mathrm\{FLOP\}\_\{i\}\)\+b\-z\_\{j\}\)\) 测试时 pass@k\\operatorname\{pass@k\} pass@k\(i,D\)=1N∑j=1Npass@k\(i,j\) \\operatorname\{pass@k\}\(i,\{\\mathcal\{D\}\}\)=\\frac\{1\}\{N\}\\sum\_\{j=1\}^\{N\}\\operatorname\{pass@k\}\(i,j\) 1N∑j=1N\(1−\(1−pass@1\(i,j\)\)k\) \\frac\{1\}\{N\}\\sum\_\{j=1\}^\{N\}\(1\-\(1\-\\operatorname\{pass@1\}\(i,j\)\)^\{k\}\) 1N∑j=1N\(1−\(1−σ\(dj⋅\(θi−zj\)\)\)k\) \\frac\{1\}\{N\}\\sum\_\{j=1\}^\{N\}\(1\-\(1\-\\sigma\(d\_\{j\}\\cdot\(\\theta\_\{i\}\-z\_\{j\}\)\)\)^\{k\}\)
表1:IRSL学习问题级参数,从而能够在具有相同测量目标的问题集之间进行泛化。Acc\\mathrm\{Acc\}、pCorrect Choice\\operatorname\{p\_\{\\text\{Correct Choice\}\}\}(预训练下游缩放定律)和pass@k\\operatorname\{pass@k\}(测试时缩放定律)的定义、传统拟合方法和基于IRT的拟合方法,使用2PL模型。传统方法拟合特定于LM和基准的参数。
### 3.1 传统二元IRT
在包含NN个问题的基准上评估MM个模型需要M×N次查询,这在规模上是极其昂贵的。项目反应理论通过建模测试者能力与问题难度之间的交互来解决这个问题,从而能够从少得多的查询中获得可靠评估。形式上,IRT指的是一类概率潜变量模型,用于解释测试者的潜在能力、问题特征(例如难度)以及测试者对问题的观测响应之间的关系(Baker,2001 (https://arxiv.org/html/2606.07616#bib.bib31);Van der Linden等人,2000 (https://arxiv.org/html/2606.07616#bib.bib32))。IRT中的一个核心模型是1PL模型(Rasch,1993 (https://arxiv.org/html/2606.07616#bib.bib17)),其中每个测试者有一个能力参数θ\\theta,每个问题有一个难度参数zz。更高的θ\\theta表示更强的能力,更高的zz表示更困难的问题。令yy表示二元...相似文章
评估失效的缩放定律:为何简单平均在数据稀疏和题目难度差距下会崩溃,以及项目反应理论如何跨领域恢复真实情况
本文指出,在数据稀疏和难度异构的情况下,AI基准测试中的简单平均法会失效,并提出项目反应理论(IRT)作为一种稳健的替代方案,以恢复真实的排名情况。
扩展项目反应理论以实现高效且有意义的多语言评估
本文介绍了Multilingual-IRT,这是一个统计框架,通过每种语言的难度偏差和拆分可区分性扩展了项目反应理论,能够高效预测未观测到的评估、检测翻译错误以及恢复跨29种语言的文化特定项目。
统一神经缩放定律
本文提出了统一神经缩放定律(UNSL),这是一种函数形式,能够准确建模和推断深度神经网络在多个维度(如参数、数据和步骤)同时变化时的缩放行为,相较于之前的缩放定律有所改进。
统一神经缩放定律
提出了一种统一神经缩放定律,能够精确建模深度神经网络在多个维度(包括参数量、数据集大小、训练步数和计算量)上的缩放行为,并在多种架构和任务上得到验证。
使用项目反应理论审计LLM基准测试
本文介绍了一种基于项目反应理论的方法,能够以95%的准确率检测LLM基准测试中的错误标注示例,并将错误追溯到标注启发式方法和注释问题。