样本均值与方差
 
 
 
 
 
 
 
 
 
 
 
贡献者: ditto
- 本文处于草稿阶段。
- 本文缺少预备知识,初学者可能会遇到困难。
(需要前置知识:期望和方差的基本性质;协方差与独立)
在实际场景中,我们经常需要测量某一个量的分布情况。例如,如果我们想要知道上海市所有人的身高分布情况,进行一次像人口普查一样大规模的调研显然是不现实的(上海人口已经来到接近 2500 万人)。更实际的做法是在虹桥火车站或者外滩附近随机采访 100 个人,统计他们的身高情况,并以此来估计上海市民身高的分布情况。如果将所有上海人的身高作为总体,我们随机调查得到的数据就是一个样本。而我们想要知道,样本数据可以在多大的程度上反映全体数据的分布情况。
假设总体数据满足分布 $X\sim(\mu, \tau^2)$,我们从中抽取的样本 $\{X_i \}_{i=1}^n$,并满足 $\forall i,j,\ X_i,X_j$ 相互独立。对于样本数据,可以计算其均值:
\begin{equation}
\bar X=\frac{\sum_{i=1}^n X_i}{n}~.
\end{equation}
我们当然希望样本均值总等于总体的均值:$\bar X=\mu$,但显然这是不可能的。事实上,$\bar X$ 也是一个统计量,其取值会随着选取样本的变化而变化。
定理 1
若总体满足分布 $X\sim (\mu, \tau^2)$,则其一组互相独立的样本 $\{X_i \}_{i=1}^n$ 的均值 $\bar X$ 满足分布 $\bar X\sim (\mu, \frac{\tau^2}{n})$
证明
期望:
\begin{equation}
E(\bar X) =E(\frac{\sum_{i=1}^n X_i}{n})
=\frac 1 n \sum_{i=1}^n E(X_i)=\mu~.
\end{equation}
方差:
\begin{equation}
\begin{aligned}
D(\bar X) &=E((\frac{\sum_{i=1}^n X_i}{n}-\mu)^2)\\
&= E(\frac{(\sum_{i=1}^n X_i-n \mu)^2}{n^2}) \\
&=\frac {1} {n^2} E(\sum_{i=1}^n (X_i-\mu)^2) \\
&=\frac {\tau^2}{n}~.
\end{aligned}
\end{equation}
同样的,我们希望样本的方差 $S^2$ 可以反映总体方差:$E(S^2)=\tau^2$。基于此,可以给出样本方差的计算方法和证明。
定理 2
若总体满足分布 $X\sim (\mu, \tau^2)$,对于一组相互独立的样本 $\{X_i \}_{i=1}^n$,其统计方差:
\begin{equation}
S^2 = \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}~.
\end{equation}
满足 $E(S^2) = \tau^2$
证明
\begin{equation}
\begin{aligned}
E(S^2) &= \frac {1}{n-1}E(\sum_{i=1}^n(X_i-\bar X)^2) \\
&= \frac {1}{n-1}E(\sum_{i=1}^n(X_i^2-2X_i\bar X+\bar X^2))\\
&= \frac {1}{n-1}E(\sum_{i=1}^nX_i^2-n\bar X^2)\\
&= \frac {1}{n-1} (\sum_{i=1}^nE(x_i^2)-nE(\bar X^2))\\
&= \frac {1}{n-1}(\sum_{i=1}^n(\mu^2+\tau^2)-n(\mu^2+\frac{\tau^2}{n}))\\
&= \frac {(n-1)\tau^2}{n-1}\\
&= \tau^2~.
\end{aligned}
\end{equation}
统计量的方差计算最大的不同是分母是 $n-1$ 而不是 $n$,这可以理解为:由于我们在计算中用统计量的均值来 “代替” 总体分布的均值,这会使数据减少一个自由度。
 
 
 
 
 
 
 
 
 
 
 
© 小时科技 保留一切权利