T分布的90%置信区间

Hacker News Top 2026/05/27 13:29 新闻

statistics t-distribution confidence-interval data-science approximation student-t

摘要

解释学生t分布对小样本置信区间的修正，提供了一个便于记忆的90%置信区间表格以及一个根据两个样本估计标准差的经验法则。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/31 01:30

# t分布的90% 来源：https://entropicthoughts.com/ninety-percent-of-the-t-distribution ninety-percent-of-the-t-distribution.jpg 威廉·西利·戈塞特（William Sealy Gosset）非常了不起。他利用当时的统计方法改进了吉尼斯啤酒的质量。但还不满足于此，他又发明了新的统计方法来酿造更好的啤酒。他发明的这些方法如今广泛使用，但吉尼斯希望将他作为秘密武器，因此要求他以假名*Student*发表成果。戈塞特意识到的一点是，用样本标准差计算均值的90%置信区间，并*假设正态分布*，像这样： \\\[\\hat{\mu} \pm 1.645 \\hat{\sigma}\\\] 是错误的。这样做会导致区间过窄，因为我们虽然知道\\(\\hat{\mu}\\)只是一个近似值，却错误地假设我们完全确定了\\(\\sigma = \\hat{\sigma}\\)！戈塞特根据估计置信区间时使用的样本数量，提出了修正系数表，以反映我们对\\(\\hat{\sigma}\\)估计的不确定性。以下是一些有用的数值，经过四舍五入便于记忆： | 样本数 | 90%区间的修正因子 | | --- | --- | | 2 | 4× | | 3 | 2× | | 4 | 1.5× | | 5 | 1.3× | | 6–8 | 1.2× | | 9–20 | 1.1× | 使用此表时，先统计用于估计标准差的样本数量，将标准差估计值\\(\\hat{\sigma}\\)乘以修正因子，再乘以1.645，即可得到90%置信区间。如果样本数大于20，那么直接使用标准差的简单估计对90%区间来说已经足够。因此，如果我们有7个样本，据此估计均值为32分钟，标准差为8分钟，那么90%置信区间不应理解为 \\\[ 32 \pm 8×1.645 \\\] 而应该是 \\\[32 \pm 8×1.2×1.645\\\] 即使只有7个样本，实际90%置信区间与简单估计的区间相差不大，仅窄了约1.2倍。样本数更少时，标准差的不确定性更大，因此我们应该估计一个对应更宽的区间。11强度更高的置信区间，如95%甚至99%区间，经过Student t修正后，宽度会相应地增加更多。这张表针对的是90%区间，因为这是我最常用的。戈塞特实际上并没有提出任何特定的近似表；他提出了完整的*Student t*分布，让我们能够根据需要制作任何修正因子表。 ## 仅用两个值估计变异性 (https://entropicthoughts.com/ninety-percent-of-the-t-distribution#variation-from-just-two-values) 虽然上面的表格是计算90%置信区间所需的，但我们也可以用类似的方法，仅凭两个样本对标准差进行粗略估计。两个值的样本标准差为： \\\[\frac{\left\(\mathrm{高} - \mathrm{低}\right\)}{\sqrt{2}}\\\] 这个值会严重低估实际标准差，因为它仅仅基于两个值。但一个标准差对应的t分数是1.846，因此我们可以将上述值乘以1.846，从而得到标准差的更好近似值。如果我们将常数因子取整，就会发现（通过t分布修正后的）标准差合理估计值为两个数之间距离的1.3倍。这在实际应用中非常有用！ ## 使用示例 (https://entropicthoughts.com/ninety-percent-of-the-t-distribution#example-of-how-to-use-it) 我相信你遇到过这样的情况：有人问“49升是个好结果吗？” 你当然不知道，于是反问“和什么比？” 也许他们回答“和43升比！” 这听起来很厉害，但你不想被我批评，所以你说：“这仍然说明不了任何问题，因为我不知道过程的固有变异性。再给我一个典型的结果！” 他们可能会说：“呃，47升。” 这时你放松警惕，心想：“哦，49比这两个典型结果都高。非常好！” 然后我就要批评你了！所以你应该开动脑筋。你得到了两个典型数字：43和47。这些数字并不能告诉你太多关于固有变异性的信息，但能让你窥见一斑。它们之间的差距是4。将其乘以1.3，我们得到标准差的估计值，大约是5升。这意味着49升距离中点45升不到一个标准差。这是一个正常的结果，并非异常的好或差。

T分布的90%置信区间

相似文章

TabularMath：用大语言模型理解表格上的数学推理

用于离策略时序差分预测的行为感知辅助修正

信任区域策略蒸馏

阐明扩散概率模型的SNR-t偏差

知识蒸馏中一致性信息丰富的软标签温度

提交意见反馈