置信区间和置信水平

尝试用通俗的例子和语言来解释这两个统计学概念,他们在电路设计和信号处理中都非常有用,比如测量jitter。OK,下面以咖啡豆为例:

假设你受雇于一家咖啡公司,刚入职的首个任务就是让你估计农场咖啡豆的平均大小。不过如果估计错误,就要支付罚款。所以你拿了N个咖啡豆开始测量并取平均,最后得出一个11mm大小的结论,假如现在就去告诉公司说,“我这里的咖啡豆大小是11 mm”,如果出错,就必须支付罚款,而你又不想支付这笔罚款,因此思考加入一些错误余量(error margin)。于是你说,“好吧,我不太确定……应该是11mm±1mm”。这里的±1mm是你估计的一个区间,统计上称它为置信区间(CI,confidential interval),表示错误的余量。如果还有一些时间,你可以多次对N 个(不同的)咖啡豆重复这些测量,发现实际上在 90% 的情况下,咖啡豆大小的平均值确实在 11mm±1mm范围内。这里的90%就被称为置信水平(CL,confidential level)。因此,你现在跑去回答公司应该就没问题,说:“我有90%的把握,咖啡豆的平均大小为11mm±1mm”。虽然这是一个非常复杂的答案,但它可能是唯一让你不支付罚款的答案。如果增加测量咖啡豆的数量N,还可以收紧置信区间(显然如此,极端情况是全部测量,就没有区间一说),或者是,对于相同的置信区间,增加N可提高置信水平。

上面就是一个比较通俗的例子。数学上,置信区间的表达式如下,

\[ \left[ \mu – 1.96\times\frac{\sigma}{\sqrt{n}}, \mu + 1.96\times\frac{\sigma}{\sqrt{n}} \right] \]

可以看到,其他因素不变的情况下,样本数n越大,置信区间越小。在电子科学领域,我们可以把对咖啡豆的测量换成对其他具有统计分布的物理量的测量,比如jitter,虽然对象不同,但讲的是同一件事。😀

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注