样本均值与方差

                     

贡献者: ditto

  • 本文处于草稿阶段。
  • 本文缺少预备知识,初学者可能会遇到困难。

   (需要前置知识:期望和方差的基本性质;协方差与独立)

   在实际场景中,我们经常需要测量某一个量的分布情况。例如,如果我们想要知道上海市所有人的身高分布情况,进行一次像人口普查一样大规模的调研显然是不现实的(上海人口已经来到接近 2500 万人)。更实际的做法是在虹桥火车站或者外滩附近随机采访 100 个人,统计他们的身高情况,并以此来估计上海市民身高的分布情况。如果将所有上海人的身高作为总体,我们随机调查得到的数据就是一个样本。而我们想要知道,样本数据可以在多大的程度上反映全体数据的分布情况。

   假设总体数据满足分布 X(μ,τ2),我们从中抽取的样本 {Xi}i=1n,并满足 i,j, Xi,Xj 相互独立。对于样本数据,可以计算其均值:

(1)X¯=i=1nXin .

   我们当然希望样本均值总等于总体的均值:X¯=μ,但显然这是不可能的。事实上,X¯ 也是一个统计量,其取值会随着选取样本的变化而变化。

定理 1 

   若总体满足分布 X(μ,τ2),则其一组互相独立的样本 {Xi}i=1n 的均值 X¯ 满足分布 X¯(μ,τ2n)

   证明

   期望:

(2)E(X¯)=E(i=1nXin)=1ni=1nE(Xi)=μ .

   方差:

(3)D(X¯)=E((i=1nXinμ)2)=E((i=1nXinμ)2n2)=1n2E(i=1n(Xiμ)2)=τ2n .

   同样的,我们希望样本的方差 S2 可以反映总体方差:E(S2)=τ2。基于此,可以给出样本方差的计算方法和证明。

定理 2 

   若总体满足分布 X(μ,τ2),对于一组相互独立的样本 {Xi}i=1n,其统计方差:

(4)S2=i=1n(XiX¯)2n1 .
满足 E(S2)=τ2

   证明

(5)E(S2)=1n1E(i=1n(XiX¯)2)=1n1E(i=1n(Xi22XiX¯+X¯2))=1n1E(i=1nXi2nX¯2)=1n1(i=1nE(xi2)nE(X¯2))=1n1(i=1n(μ2+τ2)n(μ2+τ2n))=(n1)τ2n1=τ2 .

   统计量的方差计算最大的不同是分母是 n1 而不是 n,这可以理解为:由于我们在计算中用统计量的均值来 “代替” 总体分布的均值,这会使数据减少一个自由度。

                     

© 小时科技 保留一切权利