样本均值与方差

贡献者： ditto

本文处于草稿阶段。
本文缺少预备知识，初学者可能会遇到困难。

　　（需要前置知识：期望和方差的基本性质；协方差与独立）

　　在实际场景中，我们经常需要测量某一个量的分布情况。例如，如果我们想要知道上海市所有人的身高分布情况，进行一次像人口普查一样大规模的调研显然是不现实的（上海人口已经来到接近 2500 万人）。更实际的做法是在虹桥火车站或者外滩附近随机采访 100 个人，统计他们的身高情况，并以此来估计上海市民身高的分布情况。如果将所有上海人的身高作为总体，我们随机调查得到的数据就是一个样本。而我们想要知道，样本数据可以在多大的程度上反映全体数据的分布情况。

　　假设总体数据满足分布 $X\sim(\mu, \tau^2)$，我们从中抽取的样本 $\{X_i \}_{i=1}^n$，并满足 $\forall i,j,\ X_i,X_j$ 相互独立。对于样本数据，可以计算其均值：

\begin{equation} \bar X=\frac{\sum_{i=1}^n X_i}{n}~. \end{equation}

　　我们当然希望样本均值总等于总体的均值：$\bar X=\mu$，但显然这是不可能的。事实上，$\bar X$ 也是一个统计量，其取值会随着选取样本的变化而变化。

定理 1　

　　若总体满足分布 $X\sim (\mu, \tau^2)$，则其一组互相独立的样本 $\{X_i \}_{i=1}^n$ 的均值 $\bar X$ 满足分布 $\bar X\sim (\mu, \frac{\tau^2}{n})$

　　证明

　　期望：

\begin{equation} E(\bar X) =E(\frac{\sum_{i=1}^n X_i}{n}) =\frac 1 n \sum_{i=1}^n E(X_i)=\mu~. \end{equation}

　　方差：

\begin{equation} \begin{aligned} D(\bar X) &=E((\frac{\sum_{i=1}^n X_i}{n}-\mu)^2)\\ &= E(\frac{(\sum_{i=1}^n X_i-n \mu)^2}{n^2}) \\ &=\frac {1} {n^2} E(\sum_{i=1}^n (X_i-\mu)^2) \\ &=\frac {\tau^2}{n}~. \end{aligned} \end{equation}

　　同样的，我们希望样本的方差 $S^2$ 可以反映总体方差：$E(S^2)=\tau^2$。基于此，可以给出样本方差的计算方法和证明。

定理 2　

　　若总体满足分布 $X\sim (\mu, \tau^2)$，对于一组相互独立的样本 $\{X_i \}_{i=1}^n$，其统计方差：

\begin{equation} S^2 = \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}~. \end{equation}

满足 $E(S^2) = \tau^2$

　　证明

\begin{equation} \begin{aligned} E(S^2) &= \frac {1}{n-1}E(\sum_{i=1}^n(X_i-\bar X)^2) \\ &= \frac {1}{n-1}E(\sum_{i=1}^n(X_i^2-2X_i\bar X+\bar X^2))\\ &= \frac {1}{n-1}E(\sum_{i=1}^nX_i^2-n\bar X^2)\\ &= \frac {1}{n-1} (\sum_{i=1}^nE(x_i^2)-nE(\bar X^2))\\ &= \frac {1}{n-1}(\sum_{i=1}^n(\mu^2+\tau^2)-n(\mu^2+\frac{\tau^2}{n}))\\ &= \frac {(n-1)\tau^2}{n-1}\\ &= \tau^2~. \end{aligned} \end{equation}

　　统计量的方差计算最大的不同是分母是 $n-1$ 而不是 $n$，这可以理解为：由于我们在计算中用统计量的均值来 “代替” 总体分布的均值，这会使数据减少一个自由度。

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。