样本均值与方差

贡献者： ditto

本文处于草稿阶段。
本文缺少预备知识，初学者可能会遇到困难。

　　（需要前置知识：期望和方差的基本性质；协方差与独立）

　　在实际场景中，我们经常需要测量某一个量的分布情况。例如，如果我们想要知道上海市所有人的身高分布情况，进行一次像人口普查一样大规模的调研显然是不现实的（上海人口已经来到接近 2500 万人）。更实际的做法是在虹桥火车站或者外滩附近随机采访 100 个人，统计他们的身高情况，并以此来估计上海市民身高的分布情况。如果将所有上海人的身高作为总体，我们随机调查得到的数据就是一个样本。而我们想要知道，样本数据可以在多大的程度上反映全体数据的分布情况。

　　假设总体数据满足分布 $X\sim(\mu, \tau^2)$，我们从中抽取的样本 $\{X_i \}_{i=1}^n$，并满足 $\forall i,j,\ X_i,X_j$ 相互独立。对于样本数据，可以计算其均值：

\begin{equation} \bar X=\frac{\sum_{i=1}^n X_i}{n}~. \end{equation}

　　我们当然希望样本均值总等于总体的均值：$\bar X=\mu$，但显然这是不可能的。事实上，$\bar X$ 也是一个统计量，其取值会随着选取样本的变化而变化。

定理 1　

　　若总体满足分布 $X\sim (\mu, \tau^2)$，则其一组互相独立的样本 $\{X_i \}_{i=1}^n$ 的均值 $\bar X$ 满足分布 $\bar X\sim (\mu, \frac{\tau^2}{n})$

　　证明

　　期望：

\begin{equation} E(\bar X) =E(\frac{\sum_{i=1}^n X_i}{n}) =\frac 1 n \sum_{i=1}^n E(X_i)=\mu~. \end{equation}

　　方差：

\begin{equation} \begin{aligned} D(\bar X) &=E((\frac{\sum_{i=1}^n X_i}{n}-\mu)^2)\\ &= E(\frac{(\sum_{i=1}^n X_i-n \mu)^2}{n^2}) \\ &=\frac {1} {n^2} E(\sum_{i=1}^n (X_i-\mu)^2) \\ &=\frac {\tau^2}{n}~. \end{aligned} \end{equation}

　　同样的，我们希望样本的方差 $S^2$ 可以反映总体方差：$E(S^2)=\tau^2$。基于此，可以给出样本方差的计算方法和证明。

定理 2　

　　若总体满足分布 $X\sim (\mu, \tau^2)$，对于一组相互独立的样本 $\{X_i \}_{i=1}^n$，其统计方差：

\begin{equation} S^2 = \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}~. \end{equation}

满足 $E(S^2) = \tau^2$

　　证明

\begin{equation} \begin{aligned} E(S^2) &= \frac {1}{n-1}E(\sum_{i=1}^n(X_i-\bar X)^2) \\ &= \frac {1}{n-1}E(\sum_{i=1}^n(X_i^2-2X_i\bar X+\bar X^2))\\ &= \frac {1}{n-1}E(\sum_{i=1}^nX_i^2-n\bar X^2)\\ &= \frac {1}{n-1} (\sum_{i=1}^nE(x_i^2)-nE(\bar X^2))\\ &= \frac {1}{n-1}(\sum_{i=1}^n(\mu^2+\tau^2)-n(\mu^2+\frac{\tau^2}{n}))\\ &= \frac {(n-1)\tau^2}{n-1}\\ &= \tau^2~. \end{aligned} \end{equation}

　　统计量的方差计算最大的不同是分母是 $n-1$ 而不是 $n$，这可以理解为：由于我们在计算中用统计量的均值来 “代替” 总体分布的均值，这会使数据减少一个自由度。