置信区间如何理解和设置
95%置信区间,意味着如果你用同样的步骤,去选样本,计算置信区间,那么 100 次这样的独立过程,有 95%的概率
你计算出来的区间会包含真实参数值,即大概会有 95 个置信区间会包含真值。而对于某一次计算得到的某一个置信区
间,其包含真值的概率,我们无法讨论。参源
1.点估计与区间估计
首先我们看看点估计的含义:
是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点
估计。点估计虽然给出了未知参数的估计值,但是未给出估计值的可靠程度,即估计值偏离未知参数真实值的程度。
接下来看下区间估计:
给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。
2.中心极限定理与大数定理
中心极限定理:
在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。例如我们要计算全中国人的平
均身高。如果每次取 10000 个身高作为样本,对应有一个样本均值。如果再从总体中重复抽取 n 多次 10000 个样本,
就对应有 n 个样本均值。随着 n 增大,把所有样本均值画出来,得到的就是一个接近正太分布的曲线。
大数定理:
取样数趋近无穷时,样品平均值按概率收敛于期望值。抛硬币的次数越多,越接近正反各一半。
3.置信区间与置信水平
一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b 的具体数值取决于你对于”该区间包含总体均值”
这一结果的可信程度,因此[a,b]被称为置信区间。
一般来说,选定某一个置信区间,我们的目的是为了让”ab 之间包含总体平均值”的结果有一特定的概率,这个概率就是
所谓的置信水平。
例如我们最常用的 95%置信水平,就是说做 100 次抽样,有 95 次的置信区间包含了总体均值。
4.标准差(standard deviation)与标准误差(standard error)
标准差是描述观察值(个体值)之间的变异程度(例如一个人打十次靶子的成绩,这时有一个平均数 8,有一个反映他成
绩稳定与否的标准差);
标准误是描述样本均数的抽样误差(例如十次抽样,每次他成绩平均数(7,8,6,9,5,6,7,7,8,9)的标准差,也就是抽样分
布的标准差);
样本的标准误差为: