概率密度函数与人工智能概论

贡献者： Chain; addis

本文处于草稿阶段。
本文缺少预备知识，初学者可能会遇到困难。
乱用定义环境

预备知识　高斯分布（正态分布）

定义 1　为什么求总似然的时候，要用正态分布的概率密度函数？

　　由于中心极限定理，假设所有假设样本之间都为独立事件，并且误差变量随机产生，那样就服从正态分布！

定理 1　为什么采用概率密度相乘而不是概率直接相乘？

　　由于概率并不好求，所以找到了概率密度最大的时候也就相当于找到了概率最大的时候！

\begin{equation} y^{\left(i\right)}=\theta^T x^{\left(i\right)} + \varepsilon^{\left(i\right)}~. \end{equation}

\begin{equation} p\left(\epsilon^{\left(i\right)}\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(\epsilon^{\left(i\right)}\right)^2}{2\sigma^2}\right)~. \end{equation}

\begin{equation} p\left(y^{\left(i\right)}|\; x^{\left(i\right)};\;\theta\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)~. \end{equation}

\begin{equation} \begin{aligned} L\left(\theta\right)&=\prod_{i=1}^m p\left(y^{\left(i\right)} |\; x^{\left(i\right)};\;\theta\right)\\ &=\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(\epsilon^{\left(i\right)}\right)^2}{2\sigma^2}\right) \end{aligned} ~. \end{equation}

定义 2　取极值

　　如果想要取得总似然的最大值，最好的模拟方法不是求得连乘的最大值，而是求得连加的最大值，要想得到这样的过程，我们应该对函数极值两侧取对数。

\begin{equation} \begin{aligned} \boldsymbol{l}\left(\theta\right)&=ln\;L\left(\theta\right)\\ &=ln\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)\\ &=\sum_{i=1}^m ln\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)\\ &=m\,ln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\cdot\frac{1}{2}\sum_{i=1}^m \left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2~. \end{aligned} \end{equation}

\begin{equation} \boldsymbol{J}\left(\theta\right)=\frac{1}{2}\sum_{i=1}^m \left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2~. \end{equation}

　　加入一些我对人工智能的理解：为什么选取正态分布函数呢？或者是为什么不直接采用？

\begin{equation} \epsilon^2=0~. \end{equation}

其实在哔哩哔哩上已经讲过，其实最后模拟完成之后代入的函数其实是 Function_sigmoid(x)【现在已经被替换成 ReLU(x)】进行优化。

　　但是我们这个函数的表达形式是因为：我们的 $x^i$ 和 $y^i$ 是固定模拟且随机的，所以这样结果所带来的 epsilon 是属于随机误差，而又根据概率论与数理统计的定理来看，一旦是随机的，那么应该处于正态分布的中间部分，其实也就是正太分布的极值点附近。只要能保证 m 个正态分布概率曲线相乘取到的值最大，也就说明了这样是最符合随机分布的。

　　要使 L(theta)最大，就要使 J(theta)最小。

　　但是，这样的模型构建也有一定的问题，比如实际生活中并非所有的变量都是没有相互关联的，而且还可能出现两个正太分布峰值的情况。还有，在没有很多训练样本的情况下，不一定最大值就满足在正太分布的峰值的情况。

\begin{equation} \begin{aligned} \boldsymbol{J}\left(\theta\right)&=\frac{1}{2}\sum_{i=1}^m \left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2 \\ &=\frac{1}{2}\left(X\,\theta-y\right)^T\left(X\,\theta-y\right)\\ &{=\frac{1}{2}\left(\theta^T\,X^T-y^T\right)\left(X\,\theta-y\right)} \end{aligned} ~. \end{equation}

　　再对上述式子进行展开

\begin{equation} \begin{aligned} \boldsymbol{J}\left(\theta\right)&=\frac{1}{2}\left(\theta^T\,X^T\,X\,\theta-y^T\,X\,\theta-\theta^T\,X^T\,y+y^T\,y\right)\\ &=\frac{1}{2}\left(\left(X\,\theta\right)^2-y^T\,X\,\theta-\theta^T\,X^T\,y+y^2\right)~. \end{aligned} \end{equation}

　　现在如果求其最小值，则需要求驻点，即：

\begin{equation} \begin{aligned} \frac{\partial\boldsymbol{J}\left(\theta\right)}{\partial\theta} &=\frac{1}{2}\left(2X^T\,X\,\theta-X^T\,y-\left(y^T\,X\right)^T\right)\\ &=\left(X^T\,X\,\theta-X^T\,y\right)\\ &=0~. \end{aligned} \end{equation}

　　解出 theta 的值

\begin{equation} \theta=\left(X^T\,X\right)^{-1}X^T\,y~. \end{equation}

　　其中，由于对矩阵和行列式求导都不是很熟悉，所以我们需要补充一段行列式和矩阵求导的运算。

　　首先介绍行列式求导：

\begin{equation} \frac{\mathrm{d}}{\mathrm{d} x}\begin{vmatrix} x_{1,1} & \cdots & x_{1,n} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,n} \end{vmatrix}=\sum_{i=1}^n \begin{vmatrix} x_{1,1} & \cdots & x_{1,n} \\ \vdots & \ddots & \vdots \\ \frac{\mathrm{d} x_{i,1}}{\mathrm{d} x} & \cdots & \frac{\mathrm{d} x_{i,n}}{\mathrm {d} x} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,n} \end{vmatrix}~. \end{equation}

概率密度函数与人工智能概论

定义 1 为什么求总似然的时候，要用正态分布的概率密度函数？

定理 1 为什么采用概率密度相乘而不是概率直接相乘？

定义 2 取极值

定义 1　为什么求总似然的时候，要用正态分布的概率密度函数？

定理 1　为什么采用概率密度相乘而不是概率直接相乘？

定义 2　取极值