T分布的90%置信区间

Hacker News Top 新闻

摘要

解释学生t分布对小样本置信区间的修正,提供了一个便于记忆的90%置信区间表格以及一个根据两个样本估计标准差的经验法则。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/31 01:30

# t分布的90% 来源:https://entropicthoughts.com/ninety-percent-of-the-t-distribution ninety-percent-of-the-t-distribution.jpg 威廉·西利·戈塞特(William Sealy Gosset)非常了不起。他利用当时的统计方法改进了吉尼斯啤酒的质量。但还不满足于此,他又发明了新的统计方法来酿造更好的啤酒。他发明的这些方法如今广泛使用,但吉尼斯希望将他作为秘密武器,因此要求他以假名*Student*发表成果。 戈塞特意识到的一点是,用样本标准差计算均值的90%置信区间,并*假设正态分布*,像这样: \\\[\\hat{\mu} \pm 1.645 \\hat{\sigma}\\\] 是错误的。这样做会导致区间过窄,因为我们虽然知道\\(\\hat{\mu}\\)只是一个近似值,却错误地假设我们完全确定了\\(\\sigma = \\hat{\sigma}\\)! 戈塞特根据估计置信区间时使用的样本数量,提出了修正系数表,以反映我们对\\(\\hat{\sigma}\\)估计的不确定性。以下是一些有用的数值,经过四舍五入便于记忆: | 样本数 | 90%区间的修正因子 | | --- | --- | | 2 | 4× | | 3 | 2× | | 4 | 1.5× | | 5 | 1.3× | | 6–8 | 1.2× | | 9–20 | 1.1× | 使用此表时,先统计用于估计标准差的样本数量,将标准差估计值\\(\\hat{\sigma}\\)乘以修正因子,再乘以1.645,即可得到90%置信区间。如果样本数大于20,那么直接使用标准差的简单估计对90%区间来说已经足够。 因此,如果我们有7个样本,据此估计均值为32分钟,标准差为8分钟,那么90%置信区间不应理解为 \\\[ 32 \pm 8×1.645 \\\] 而应该是 \\\[32 \pm 8×1.2×1.645\\\] 即使只有7个样本,实际90%置信区间与简单估计的区间相差不大,仅窄了约1.2倍。样本数更少时,标准差的不确定性更大,因此我们应该估计一个对应更宽的区间。11强度更高的置信区间,如95%甚至99%区间,经过Student t修正后,宽度会相应地增加更多。 这张表针对的是90%区间,因为这是我最常用的。戈塞特实际上并没有提出任何特定的近似表;他提出了完整的*Student t*分布,让我们能够根据需要制作任何修正因子表。 ## 仅用两个值估计变异性 (https://entropicthoughts.com/ninety-percent-of-the-t-distribution#variation-from-just-two-values) 虽然上面的表格是计算90%置信区间所需的,但我们也可以用类似的方法,仅凭两个样本对标准差进行粗略估计。两个值的样本标准差为: \\\[\frac{\left\(\mathrm{高} - \mathrm{低}\right\)}{\sqrt{2}}\\\] 这个值会严重低估实际标准差,因为它仅仅基于两个值。但一个标准差对应的t分数是1.846,因此我们可以将上述值乘以1.846,从而得到标准差的更好近似值。 如果我们将常数因子取整,就会发现(通过t分布修正后的)标准差合理估计值为两个数之间距离的1.3倍。这在实际应用中非常有用! ## 使用示例 (https://entropicthoughts.com/ninety-percent-of-the-t-distribution#example-of-how-to-use-it) 我相信你遇到过这样的情况:有人问“49升是个好结果吗?” 你当然不知道,于是反问“和什么比?” 也许他们回答“和43升比!” 这听起来很厉害,但你不想被我批评,所以你说:“这仍然说明不了任何问题,因为我不知道过程的固有变异性。再给我一个典型的结果!” 他们可能会说:“呃,47升。” 这时你放松警惕,心想:“哦,49比这两个典型结果都高。非常好!” 然后我就要批评你了! 所以你应该开动脑筋。 你得到了两个典型数字:43和47。这些数字并不能告诉你太多关于固有变异性的信息,但能让你窥见一斑。它们之间的差距是4。将其乘以1.3,我们得到标准差的估计值,大约是5升。这意味着49升距离中点45升不到一个标准差。这是一个正常的结果,并非异常的好或差。

相似文章

TabularMath:用大语言模型理解表格上的数学推理

arXiv cs.CL

TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。

用于离策略时序差分预测的行为感知辅助修正

arXiv cs.AI

本文提出用于离策略时序差分预测的行为感知辅助修正,引入了BA-TDC和BA-TDRC算法,这些算法用行为贝尔曼矩阵替代辅助协方差矩阵,以提高稳定性和收敛性。理论分析和在标准基准上的实验验证了所提方法的有效性。

[R] 测量对称性--数据交换速率

Reddit r/MachineLearning

本文实证测量了等变性理论预测的对称性与数据交换速率,发现错误群对称约束具有实际危害,测试时轨道平均的数据增强与等变架构相匹配,而理论上 |G| 倍的样本复杂度降低仅得到弱证实,且置信区间较宽。该研究明确为探索性,未预先注册。

阐明扩散概率模型的SNR-t偏差

Hugging Face Daily Papers

# 论文页面 - 阐明扩散概率模型的SNR-t偏差 来源:[https://huggingface.co/papers/2604.16044](https://huggingface.co/papers/2604.16044) ## 摘要 扩散概率模型在推理阶段存在SNR-timestep偏差,本文提出一种微分校正方法,对频率分量分别处理,以极低计算代价提升多种模型的生成质量。 [扩散概率模型](https://hugg

知识蒸馏中一致性信息丰富的软标签温度

arXiv cs.LG

提出CIST方法,在知识蒸馏中为教师和学生分配独立的样本自适应温度,生成一致性信息丰富的软标签,并放宽严格的logit尺度匹配。在视觉和语言任务上的实验表明,相比标准KD具有一致的改进。