行为曲线中的辛普森悖论：聚合如何扭曲用户动态的参数模型

arXiv cs.LG 2026/05/13 04:00 论文

摘要

这篇学术论文识别并表征了行为曲线建模中的辛普森悖论，展示了由于生存偏差，聚合如何系统性地扭曲对用户动态的参数估计。作者们在 Goodreads 和 Amazon Electronics 等数据集上验证了这种失真，并提出了分层峰值估计方法来缓解这一问题。

arXiv:2605.11017v1 公告类型：new 摘要：行为曲线建模——将参数函数拟合到参与度与曝光量数据中——是推荐系统、广告投放和临床给药中的标准做法。我们发现，聚合引入了一种系统性失真：行为曲线中的辛普森悖论。在 Goodreads 数据集（330万用户，9个类别）中，单个用户的峰值出现在约 11 次曝光时，而聚合数据的峰值出现在约 34 次曝光时——这一 3 倍的差距是由生存偏差驱动的。Amazon Electronics 数据集（1800万条评论）显示出 5.3 倍的失真。MovieLens-25M 数据集（D 约等于 1）作为阴性对照，证实了生存偏差——而非聚合本身——是起作用的主要机制。这种失真对类别粒度、参与度操作定义以及分类器校准均具有鲁棒性。我们开发了合成零校准（Synthetic Null Calibration）来解决每用户分类中 32% 的假阳性率问题。我们的研究结果适用于在差异化流失情况下，从聚合曲线中估计个体行为参数的所有场景。

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:28

# 聚合如何扭曲用户动态的参数模型 来源: https://arxiv.org/html/2605.11017 ## 行为曲线中的辛普森悖论：聚合如何扭曲用户动态的参数模型 ###### 摘要 行为曲线建模——将参数函数拟合到参与度与曝光量数据中——是推荐系统、广告和临床剂量设定的标准做法。我们证明，聚合会引入系统性扭曲：行为曲线中的辛普森悖论。在 Goodreads 数据集（330 万用户，9 个流派）上，个体用户的峰值出现在 $n^* \approx 11$ 次曝光时，而聚合曲线的峰值出现在 $n^* \approx 34$ 次曝光时——这一 $3$ 倍的差距是由生存偏差驱动的。Amazon 电子产品数据集（1800 万条评论）显示出 $5.3$ 倍的扭曲。MovieLens-25M 数据集（$D \approx 1$）作为阴性对照，证实了生存偏差而非聚合本身是运作机制。该扭曲对类别粒度、参与度操作化定义和分类器校准具有鲁棒性。我们开发了合成零校准（Synthetic Null Calibration, SNC）来解决每用户分类中 32% 的假阳性率。我们的发现适用于任何在差异流失情况下从聚合曲线估计个体行为参数的场景。 ## 1 引言 行为曲线建模——将参数函数拟合到响应与曝光量数据中——在应用科学中无处不在。推荐系统利用此类曲线来设定探索预算和频率上限。临床研究依赖剂量-反应曲线，广告依赖饱和曲线，行为科学依赖学习和习惯化曲线。在每个领域，重大决策都取决于曲线参数：峰值位置、衰退起点、饱和阈值。 标准做法是在*聚合*层面上进行拟合：汇总个体，计算每个曝光计数下的平均响应，然后拟合参数模型。这在统计上很强大，但基于一个隐含假设——即聚合曲线能忠实地代表典型个体。我们证明这一假设被系统地违反了。 在 Goodreads 书籍评分数据集上（Wan and McAuley, 2018 (https://arxiv.org/html/2605.11017#bib.bib28)）（330 万用户，9 个流派），我们在两个粒度上都拟合了 Hill-指数行为模型（Berlyne, 1960 (https://arxiv.org/html/2605.11017#bib.bib1); Loewenstein, 1994 (https://arxiv.org/html/2605.11017#bib.bib2)），并发现了显著的辛普森悖论（Simpson, 1951 (https://arxiv.org/html/2605.11017#bib.bib33)）。个体用户的峰值中位数为 $n^* \approx 11$ 次曝光。聚合曲线的峰值为 $n^* \approx 34$——存在 $3$ 倍的差距。扭曲在各个流派间是双向的：Romance（浪漫）流派表现出 $6.8$ 倍的高估，Fiction（虚构）流派表现出 $9$ 倍的低估。然而，个体峰值在所有 9 个流派中紧密聚集（$\[9.6, 16.0\]$），揭示了被特定流派聚合伪影所掩盖的稳定个体层面行为。 我们的贡献包括： 1. 1\. 行为曲线中的辛普森悖论（主要贡献）。我们识别并刻画了用户行为建模中系统性的聚合扭曲，表明聚合曲线可能以 $3$ 倍到 $5$ 倍的幅度错误表示个体峰值位置。我们将生存偏差（差异流失）确定为主要机制（定理 1 (https://arxiv.org/html/2605.11017#Thmtheorem1)），并在涵盖不同流失机制的三个数据集上进行了验证：Goodreads（$D=3$ 倍，顺序参与度）、Amazon 电子产品（$D=5.3$ 倍，事务性购买；第 8 节 (https://arxiv.org/html/2605.11017#S8)）以及 MovieLens-25M（$D \approx 1$ 倍，回顾性评分；阴性对照）。我们在合成人口上从基本原理重现了这种扭曲（第 6 节 (https://arxiv.org/html/2605.11017#S6)）。 2. 2\. 层级峰值估计（方法论）。我们表明，经验贝叶斯收缩（Empirical Bayes shrinkage）（Efron and Morris, 1975 (https://arxiv.org/html/2605.11017#bib.bib42)）为聚合和朴素每用户拟合提供了一种有原则的替代方案，将个体峰值估计部分池化到总体先验中（第 9 节 (https://arxiv.org/html/2605.11017#S9)）。 3. 3\. 合成零校准（SNC）（方法论）。我们表明，在合成单调零数据上，朴素每用户曲线分类的假阳性率为 32%，并开发了一种校准协议，揭示了当模型复杂度相对于样本量较高时，每用户行为分类器作为患病率估计器本质上是受限的（第 5 节 (https://arxiv.org/html/2605.11017#S5)）。 ## 2 相关工作 #### 好奇心与行为曲线。Berlyne 的（1960 (https://arxiv.org/html/2605.11017#bib.bib1)）唤醒理论和 Loewenstein 的（1994 (https://arxiv.org/html/2605.11017#bib.bib2)）信息差距理论确立了好奇心遵循知识的倒 U 型函数，并有神经科学支持（Kanget al., 2009 (https://arxiv.org/html/2605.11017#bib.bib15); Gruberet al., 2014 (https://arxiv.org/html/2605.11017#bib.bib16)）。我们使用这个倒 U 型作为模型，但重点在于不同粒度下拟合的*统计*特性，而非心理学。推荐系统中的参与度-曝光量建模构成了疲劳检测、频率上限和探索调度的基础，借鉴了多臂老虎机（Aueret al., 2002 (https://arxiv.org/html/2605.11017#bib.bib7); Thompson, 1933 (https://arxiv.org/html/2605.11017#bib.bib8); Liet al., 2010 (https://arxiv.org/html/2605.11017#bib.bib4); Lattimore and Szepesvári, 2020 (https://arxiv.org/html/2605.11017#bib.bib25)）、上下文老虎机（Agarwalet al., 2014 (https://arxiv.org/html/2605.11017#bib.bib21)）和好奇心驱动的方法（Chenet al., 2021a (https://arxiv.org/html/2605.11017#bib.bib5),b (https://arxiv.org/html/2605.11017#bib.bib6)）——通常是在队列或总体层面进行拟合。 #### 辛普森悖论与收缩估计。辛普森悖论（Simpson, 1951 (https://arxiv.org/html/2605.11017#bib.bib33); Blyth, 1972 (https://arxiv.org/html/2605.11017#bib.bib34)）发生在聚合层面的趋势在分解后反转时。Robinson（1950 (https://arxiv.org/html/2605.11017#bib.bib36)）首先对此生态相关性进行了展示；King（1997 (https://arxiv.org/html/2605.11017#bib.bib41)）开发了重建方法，Pearl（2014 (https://arxiv.org/html/2605.11017#bib.bib35)）进行了因果分析，并应用于心理学（Kievitet al., 2013 (https://arxiv.org/html/2605.11017#bib.bib39)）和行为数据挖掘（Alipourfardet al., 2018 (https://arxiv.org/html/2605.11017#bib.bib37)）。据我们所知，它尚未应用于行为*曲线*估计，其中的扭曲影响的是拟合峰值*位置*而非相关性。经验贝叶斯收缩（Efron and Morris, 1975 (https://arxiv.org/html/2605.11017#bib.bib42)）和层级贝叶斯模型（Gelmanet al., 2013 (https://arxiv.org/html/2605.11017#bib.bib44); Gelman, 2006 (https://arxiv.org/html/2605.11017#bib.bib43)）解决了个体参数估计中的偏差-方差问题；我们将它们应用于峰值估计，作为解决我们所识别悖论的自然修复方法。 #### 信息性删失与生存分析。我们确定的生存偏差机制（定理 1 (https://arxiv.org/html/2605.11017#Thmtheorem1)）与生物统计学中的信息性删失有关（Robins and Finkelstein, 2000 (https://arxiv.org/html/2605.11017#bib.bib38); Little and Rubin, 2019 (https://arxiv.org/html/2605.11017#bib.bib48)），其中缺失性取决于结果。公式 6 (https://arxiv.org/html/2605.11017#S4.E6) 中的协方差恒等式是选择条件期望（Heckman, 1979 (https://arxiv.org/html/2605.11017#bib.bib49)）中的标准结果。我们的贡献不在于恒等式本身，而在于其应用于*行为曲线估计*：我们表明信息性删失不仅扭曲均值，还扭曲拟合的*峰值位置*，扭曲幅度在不同平台上可预测地变化（$1$ 倍到 $5$ 倍），并且产生了一种在删失文献中尚未表征的辛普森悖论形式。定理 2 (https://arxiv.org/html/2605.11017#Thmtheorem2)（附录 E (https://arxiv.org/html/2605.11017#A5)）将结果扩展到具有 FOSD 表征的任意联合分布。 ## 3 模型与方法论 ### 3.1 Hill-指数好奇心模型 我们使用 Hill-指数模型将用户参与度建模为曝光计数 $n$ 的函数： $$ C(n;\boldsymbol{\theta}) = c_0 + A \cdot \frac{n^a}{n^a + b^a} \cdot \exp\left(-\frac{n}{s}\right) \quad (1) $$ 其中 $\boldsymbol{\theta} = (c_0, A, a, b, s)$ 是参数：$c_0 \in [0,1]$ 是基础参与度，$A \in [0,1]$ 是好奇心调节幅度，$a > 0$ 控制起始陡峭度，$b > 0$ 是半最大曝光计数，$s > 0$ 是饱和衰减常数。Hill 项 $n^a/(n^a + b^a)$ 建模了初始曝光带来的好奇心上升；指数项 $\exp(-n/s)$ 建模了过度曝光带来的好奇心下降。峰值位置 $n^* = \arg\max_n C(n;\boldsymbol{\theta})$ 是好奇心最大化时的曝光计数。 ###### 定义 1（多粒度峰值估计）。给定流派 $g$ 中用户 $u \in U$ 的参与度数据 $\{(n, e_{u,g}(n)\}$： 个体峰值： $$ \text{Individual peak:} \quad n^*_{u,g} = \arg\max_n \; C(n;\hat{\boldsymbol{\theta}}_{u,g}) \quad (2) $$ 聚合峰值： $$ \text{Aggregate peak:} \quad n^*_g = \arg\max_n \; C(n;\hat{\boldsymbol{\theta}}_g) \quad (3) $$ 其中 $\hat{\boldsymbol{\theta}}_{u,g}$ 拟合于用户 $u$ 的数据，$\hat{\boldsymbol{\theta}}_g$ 拟合于流派 $g$ 中总体平均参与度曲线。 ###### 定义 2（聚合扭曲因子）。流派 $g$ 的扭曲因子为： $$ D_g = \frac{n^*_g}{\operatorname{median}(\{n^*_{u,g}: u \in U_g\})} \quad (4) $$ 当 $|D_g - 1|$ 较大时检测到辛普森悖论，表明聚合与个体峰值估计之间存在系统性分歧。 ### 3.2 模型选择与分类 我们为每条曲线拟合了七个竞争模型——Hill-指数（公式 1 (https://arxiv.org/html/2605.11017#S3.E1)）、单调衰减、平坦、纯 Hill（单调递增）、高斯峰值、对数峰值和二次型——并通过似然比检验（LRT）、AIC 和样本外 $R^2$ 进行选择。 #### 聚合层面分类。如果一个流派满足所有以下条件，则称为强倒 U 型（A 类）：$R^2 > 0.4$，LRT $p < 0.05$，与单调模型相比 $\Delta \text{AIC} > 4$，优于二次模型，置换检验显著，样本外 $R^2 > 0$，下降幅度 $> 10\%$，上升阶段显著。较弱的标准定义了 B-E 类（表 1 (https://arxiv.org/html/2605.11017#S4.T1)）。 #### 个体层面（严格）分类。如果满足所有以下条件，则用户通过：LRT $p < 0.05$，与单调模型相比 $\Delta \text{AIC} > 2$，$R^2 > 0.05$，$n^* > 2.0$（无边界峰值），下降幅度 $> 10\%$，且 Hill-Exp BIC < 30。$n^* > 30$ 的是将聚合峰值向右移动的尾部。 #### 对假阳性校准的免疫力。辛普森悖论的发现关注的是峰值*位置*，而非模式*流行率*。即使一些严格分类的用户是假阳性，他们的拟合峰值位置仍有助于构成中位数 $n^*$。由于这是一个序数主张（个体峰值系统地早于聚合峰值），而非基数主张（恰好 $X\%$ 的用户显示倒 U 型），因此该发现对分类器准确率具有鲁棒性。 ### 4.3 机制：生存偏差 为什么聚合会扭曲峰值？主要机制是*生存偏差*（差异流失）。早期峰值的用户更早脱离——一个好奇心峰值在 $n^* = 5$ 的用户不太可能在该流派中再读 30 本书。因此，高曝光聚合箱主要由晚期峰值用户主导，使总体曲线向右移动。简单来说：在曝光量 $n$ 处的聚合仅反映在 $n$ 处仍然活跃的用户——一个富含晚期峰值用户的有偏子样本。 ###### 定理 1（生存偏差驱动聚合扭曲）。令 $\{C_u(n)\}_{u=1}^N$ 为峰值在 $\{n^*_u\}$ 的单峰行为曲线。令 $S_u(n) \in \{0,1\}$ 指示用户 $u$ 是否在曝光计数 $n$ 处仍然活跃（提供数据），其中对于 $n > \operatorname{median}(\{n^*_u\})$，$P(S_u(n)=1)$ 随 $n^*_u$ 增加（峰值较晚的用户存活更久）。观察到的聚合曲线为： $$ C^{\text{agg}}_{\text{obs}}(n) = \frac{\sum_u S_u(n) \cdot C_u(n)}{\sum_u S_u(n)} \quad (5) $$ 如果存活与峰值位置相关（对于较大的 $n$，$\operatorname{Cov}(S_u(n), n^*_u) > 0$），则 $n^*_{\text{agg}} > \operatorname{median}(\{n^*_u\})$：相对于典型个体峰值，聚合峰值向右移动。定量地，在曝光 $n$ 处幸存者中观察到的平均峰值满足： $$ \mathbb{E}[n^*_u \mid S_u(n)=1] - \mathbb{E}[n^*_u] = \frac{\operatorname{Cov}(n^*_u, S_u(n))}{P(S_u(n)=1)} \quad (6) $$ 因此，每个 $n$ 处的扭曲恰好是选择协方差除以存活概率。 ###### 证明。考虑两个曝光计数 $n_1 < n_2$。对于 $n^*_u > n_2$ 的用户，其在 $n_2$ 处的参与度仍处于峰值附近。缺失的早期峰值用户在 $n_2$ 处处于峰值后的衰退期，但他们不在数据中。因此，观察到的聚合在较高的 $n$ 处被夸大，使峰值向右移动。这是信息性右删失（Robins and Finkelstein, 2000 (https://arxiv.org/html/2605.11017#bib.bib38)）：缺失机制取决于正在估计的量。∎ 我们从两个方向推广了这一结果：定理 2 (https://arxiv.org/html/2605.11017#Thmtheorem2)（附录 E (https://arxiv.org/html/2605.11017#A5)）去除了所有参数假设，在具有 FOSD 表征的任意联合分布下建立了恒等式；定理 3 (https://arxiv.org/html/2605.11017#Thmtheorem3) 提供了具有已知抽样分布的跨多个数据集的池化扭曲估计器，从而启用了正式的跨数据集假设检验。我们通过受控合成实验（第 6 节 (https://arxiv.org/html/2605.11017#S6)）验证了生存偏差机制，这些实验表明仅生存偏差就产生了 $3.0$ 倍的扭曲——与 Goodreads 中观察到的 $3.05$ 倍非常接近——而没有差异流失的振幅-峰值相关性则不产生扭曲（$1.0$ 倍）。 ## 5 合成零校准（SNC） ### 5.1 假阳性问题 每用户行为曲线分类是标准做法，但很少针对合成零数据报告假阳性率。这类似于在没有安慰剂臂的情况下进行临床试验——观察到的任何效应都可能是测量过程的伪影。我们提出*合成零校准*（SNC），一种用于校准每用户行为分类器的三步协议： 1. 1\. 生成具有已知真实动力学（单调、平坦）和匹配噪声特征（方差匹配的伯努利噪声）的合成零数据

行为曲线中的辛普森悖论：聚合如何扭曲用户动态的参数模型

相似文章

粒度悖论：时间解聚如何夸大样本内拟合并加剧样本外误差

模型崩溃的流行病学：通过双层SIR动态建模合成数据污染

人类策展何时及为何适得其反：多模型自消费循环下的偏好对齐

粒度鸿沟：对Gemini模型中谄媚行为的多维纵向审计

掩盖过时观察有助于搜索代理——直到它不再有效：一个机制图谱及其机理

提交意见反馈