概率密度函数与人工智能概论

贡献者： Chain; addis

本文处于草稿阶段。
本文缺少预备知识，初学者可能会遇到困难。
乱用定义环境

预备知识　高斯分布（正态分布）

定义 1　为什么求总似然的时候，要用正态分布的概率密度函数？

　　由于中心极限定理，假设所有假设样本之间都为独立事件，并且误差变量随机产生，那样就服从正态分布！

定理 1　为什么采用概率密度相乘而不是概率直接相乘？

　　由于概率并不好求，所以找到了概率密度最大的时候也就相当于找到了概率最大的时候！

\begin{equation} y^{\left(i\right)}=\theta^T x^{\left(i\right)} + \varepsilon^{\left(i\right)}~. \end{equation}

\begin{equation} p\left(\epsilon^{\left(i\right)}\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(\epsilon^{\left(i\right)}\right)^2}{2\sigma^2}\right)~. \end{equation}

\begin{equation} p\left(y^{\left(i\right)}|\; x^{\left(i\right)};\;\theta\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)~. \end{equation}

\begin{equation} \begin{aligned} L\left(\theta\right)&=\prod_{i=1}^m p\left(y^{\left(i\right)} |\; x^{\left(i\right)};\;\theta\right)\\ &=\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(\epsilon^{\left(i\right)}\right)^2}{2\sigma^2}\right) \end{aligned} ~. \end{equation}

定义 2　取极值

　　如果想要取得总似然的最大值，最好的模拟方法不是求得连乘的最大值，而是求得连加的最大值，要想得到这样的过程，我们应该对函数极值两侧取对数。

\begin{equation} \begin{aligned} \boldsymbol{l}\left(\theta\right)&=ln\;L\left(\theta\right)\\ &=ln\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)\\ &=\sum_{i=1}^m ln\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)\\ &=m\,ln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\cdot\frac{1}{2}\sum_{i=1}^m \left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2~. \end{aligned} \end{equation}

\begin{equation} \boldsymbol{J}\left(\theta\right)=\frac{1}{2}\sum_{i=1}^m \left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2~. \end{equation}

　　加入一些我对人工智能的理解：为什么选取正态分布函数呢？或者是为什么不直接采用？

\begin{equation} \epsilon^2=0~. \end{equation}

其实在哔哩哔哩上已经讲过，其实最后模拟完成之后代入的函数其实是 Function_sigmoid(x)【现在已经被替换成 ReLU(x)】进行优化。

　　但是我们这个函数的表达形式是因为：我们的 $x^i$ 和 $y^i$ 是固定模拟且随机的，所以这样结果所带来的 epsilon 是属于随机误差，而又根据概率论与数理统计的定理来看，一旦是随机的，那么应该处于正态分布的中间部分，其实也就是正太分布的极值点附近。只要能保证 m 个正态分布概率曲线相乘取到的值最大，也就说明了这样是最符合随机分布的。

　　要使 L(theta)最大，就要使 J(theta)最小。

　　但是，这样的模型构建也有一定的问题，比如实际生活中并非所有的变量都是没有相互关联的，而且还可能出现两个正太分布峰值的情况。还有，在没有很多训练样本的情况下，不一定最大值就满足在正太分布的峰值的情况。

\begin{equation} \begin{aligned} \boldsymbol{J}\left(\theta\right)&=\frac{1}{2}\sum_{i=1}^m \left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2 \\ &=\frac{1}{2}\left(X\,\theta-y\right)^T\left(X\,\theta-y\right)\\ &{=\frac{1}{2}\left(\theta^T\,X^T-y^T\right)\left(X\,\theta-y\right)} \end{aligned} ~. \end{equation}

　　再对上述式子进行展开

\begin{equation} \begin{aligned} \boldsymbol{J}\left(\theta\right)&=\frac{1}{2}\left(\theta^T\,X^T\,X\,\theta-y^T\,X\,\theta-\theta^T\,X^T\,y+y^T\,y\right)\\ &=\frac{1}{2}\left(\left(X\,\theta\right)^2-y^T\,X\,\theta-\theta^T\,X^T\,y+y^2\right)~. \end{aligned} \end{equation}

　　现在如果求其最小值，则需要求驻点，即：

\begin{equation} \begin{aligned} \frac{\partial\boldsymbol{J}\left(\theta\right)}{\partial\theta} &=\frac{1}{2}\left(2X^T\,X\,\theta-X^T\,y-\left(y^T\,X\right)^T\right)\\ &=\left(X^T\,X\,\theta-X^T\,y\right)\\ &=0~. \end{aligned} \end{equation}

　　解出 theta 的值

\begin{equation} \theta=\left(X^T\,X\right)^{-1}X^T\,y~. \end{equation}

　　其中，由于对矩阵和行列式求导都不是很熟悉，所以我们需要补充一段行列式和矩阵求导的运算。

　　首先介绍行列式求导：

\begin{equation} \frac{\mathrm{d}}{\mathrm{d} x}\begin{vmatrix} x_{1,1} & \cdots & x_{1,n} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,n} \end{vmatrix}=\sum_{i=1}^n \begin{vmatrix} x_{1,1} & \cdots & x_{1,n} \\ \vdots & \ddots & \vdots \\ \frac{\mathrm{d} x_{i,1}}{\mathrm{d} x} & \cdots & \frac{\mathrm{d} x_{i,n}}{\mathrm {d} x} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,n} \end{vmatrix}~. \end{equation}

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。

概率密度函数与人工智能概论

定义 1 为什么求总似然的时候，要用正态分布的概率密度函数？

定理 1 为什么采用概率密度相乘而不是概率直接相乘？

定义 2 取极值

定义 1　为什么求总似然的时候，要用正态分布的概率密度函数？

定理 1　为什么采用概率密度相乘而不是概率直接相乘？

定义 2　取极值