图

随机变量 概率分布函数

预备知识 定积分

   生活中有许多现象可以看做是随机的, 例如掷骰子的点数. 事实上骰子作为一个宏观物体, 其运动可以用一个复杂的动力学方程来精确描述. 但经过诸如 “摇匀” 这种混沌过程后, 方程的最终结果对初始条件极为敏感, 使结果难以预测. 这时我们就有充分的理由将该结果看作是随机的, 并用一个变量来表示可能的结果(就像把方程中的未知数用 $x$ 表示). 我们把这样的变量称为随机变量

   随机变量可以是离散的也可以是连续的, 例如掷骰子的点数只能取 1 到 6 的离散值, 而打靶时子弹离靶心的距离就可以用一个连续的随机变量表示. 一些更复杂事件的结果可能需要用到不止一个随机变量来描述, 本文只讨论单个随机变量, 但结论容易拓展到多个变量.

   对于一些离散的随机变量, 可能发现每个离散值得到的概率也都是恒定的. 对一个公平的骰子, 所有的点数得到的概率都是 $1/6$; 对一个公平的硬币, 掷到正反两面的概率都是 $1/2$. 如果骰子或硬币是不公平的, 不同结果会对应不同的概率, 但这些概率也是固定的. 对于连续的随机变量, 得到不同值的概率可能也是固定的, 然而这些值有无穷多个, 应该如何描述他们对应的概率呢?

连续随机变量的分布函数

   我们可以用概率分布函数(probability distribution function, PDF)来描述一个变量取各个值的概率. 假设一个连续随机变量 $x$ 可以在某个区间内取值, 我们就把该区间分为 $n$ 份, 第 $i$ 个子区间的长度为 $\Delta x_i$ 然后我们做大量的实验(记为 $N$ 次), 把随机变量得到的每个值分类归入这 $n$ 个子区间中, 并把第 $i$ 个区间中值的个数记为 $N_i$. 现在我们可以画出一种表示概率的直方图(histogram), 令第 $i$ 个区间的长方形高度为 $y_i = N_i/(N \Delta x_i)$, 则每个长方形的面积 $y_i \Delta x_i = N_i/N$ 表示随机变量的值落在第 $i$ 个区间的概率, 注意所有长方形的面积之和为 1.

   现在, 我们令区间数 $n\to \infty$ 且每个区间长度 $\Delta x_i \to 0$, 则离散的 $y_i$ 值就可以表示为函数 $y = f(x)$. 我们可以用定积分来表示 “所有长方形的面积之和为 1” , 即1

\begin{equation} \int_{-\infty}^{+\infty} f(x) = 1 \end{equation}
该式叫做概率分布函数的归一化. 满足归一化意味着, 所有情况发生的概率总和为 1.

   若我们要求随机变量落在区间 $[a,b]$ 内的概率, 就求 $[a,b]$ 区间内分布函数下方的面积即可. 更常见地, 我们可以用微分式

\begin{equation} \dd{P} = f(x) \dd{x} \end{equation}
表示 $x$ 处长度为 $\dd{x}$ 的区间微元对应的概率 $\dd{P}$. 所以 $f(x)$ 又被称为概率密度

平均值

   大学物理中, 随机变量 $x$ 的平均值通常被表示为 $\bar x$ 或者 $\ev{x}$, 我们以后都会使用.

   对于离散的情况, 某个量的平均值等于每个可能的值出现的概率乘以该值再求和, 即

\begin{equation} \ev{x} = \sum_i x_i P_i \end{equation}

   要求某个分布的平均值,我们同样可以将整个区间划分为 $n$ 个子区间, 每个区间的概率近似为 $P_i = f(x_i) \Delta x_i$, 则平均值为

\begin{equation} \ev{x} \approx \sum_{i=0}^n x_i P_i = \sum_{i=1}^n x_i f(x_i) \Delta x_i \end{equation}
用定积分的思想, 当子区间无限多且取无限小时, 上式变为
\begin{equation} \ev{x} = \int_{-\infty}^{+\infty} x f(x) \dd{x} \end{equation}

方差

   离散情况下, 若已知平均值 $\ev{x}$, 方差(每个数据点离平均值距离的平方的平均值) 可定义为

\begin{equation} \sigma_x^2 \approx \sum_{i=0}^n (x_i - \bar x)^2 P_i \end{equation}
与计算平均值的思路类似, 将方差拓展到连续变量的情况得
\begin{equation} \sigma_x^2 = \int_{-\infty}^{+\infty} \qtyRound{x-\bar x}^2 f(x) \dd{x} \end{equation}

习题1 

   某直流电源存在微小误差, 其电压随时间的函数为

\begin{equation} U(t) = U_0 + \varepsilon \sinRound{\omega t} \end{equation}
为衡量误差大小, 请计算电压的方差(用 $\varepsilon$ 表示). 提示: 由于电压变化是周期性的, 可以只在一个周期内积分.

任意函数的平均

   更一般地, 我们可以对离散的随机变量 $x_i$ 定义任意函数 $g(x)$ 的平均值

\begin{equation} \ev{g(x)} = \sum_{i=0}^n g(x_i) P_i \end{equation}
例如在计算平均值和方差时, $g(x)$ 分别取 $x$ 和 $(x - \bar x)^2$.

   拓展到连续的随机变量, 有

\begin{equation} \ev{g} = \int_{-\infty}^{+\infty} g(x) f(x) \dd{x} \end{equation}

例1 分子的平均动能

   某气体中含有大量分子(阿伏伽德罗常数数量级: $10^{23}$), 若假设某时刻它们的速度大小 $v$ 的分布函数为

\begin{equation} f(v) = A \sinRound[2]{\frac{\pi v}{v_{max}}} \end{equation}
其中 $A$ 为常数. 请分别计算:

  1. 常数 $A$, 使 $f(v)$ 满足归一化(式 1
  2. 分子速度大小的平均值
  3. 分子速度大小方差
  4. 分子动能 $E_k = mv^2/2$ 的平均值
  5. 分子动能的方差

1. 注意积分上下限是 $x$ 取值的区间, 以下为了方便表示, 我们取整个实数域, 可以理解为超出区间的部分概率分部函数为 0.

致读者: 小时物理百科一直以来坚持所有内容免费且不做广告,这导致我们处于日渐严重的亏损状态。长此以往很可能会最终导致我们不得不选择商业化,例如大量广告,内容付费,会员制,甚至被收购。因此,我们鼓起勇气在此请求广大读者热心捐款,使网站得以健康发展。如果看到这条信息的每位读者能慷慨捐助 10 元,我们几天内就能脱离亏损状态,并保证网站能在接下来的一整年里向所有读者继续免费提供优质内容。感谢您的支持。
—— 小时(项目创始人)

编辑词条 返回目录 返回主页 捐助项目 © 小时物理百科 保留一切权利