贡献者: Chain; addis
定义 1 为什么求总似然的时候,要用正态分布的概率密度函数?
由于中心极限定理,假设所有假设样本之间都为独立事件,并且误差变量随机产生,那样就服从正态分布!
定理 1 为什么采用概率密度相乘而不是概率直接相乘?
由于概率并不好求,所以找到了概率密度最大的时候也就相当于找到了概率最大的时候!
\begin{equation}
y^{\left(i\right)}=\theta^T x^{\left(i\right)} + \varepsilon^{\left(i\right)} \end{equation}
\begin{equation}
p\left(\epsilon^{\left(i\right)}\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(\epsilon^{\left(i\right)}\right)^2}{2\sigma^2}\right)
\end{equation}
\begin{equation}
p\left(y^{\left(i\right)}|\; x^{\left(i\right)};\;\theta\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)
\end{equation}
\begin{equation}
\begin{aligned}
L\left(\theta\right)&=\prod_{i=1}^m p\left(y^{\left(i\right)} |\; x^{\left(i\right)};\;\theta\right)\\
&=\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(\epsilon^{\left(i\right)}\right)^2}{2\sigma^2}\right)
\end{aligned}
\end{equation}
定义 2 取极值
如果想要取得总似然的最大值,最好的模拟方法不是求得连乘的最大值,而是求得连加的最大值,要想得到这样的过程,我们应该对函数极值两侧取对数。
\begin{equation}
\begin{aligned}
\boldsymbol{l}\left(\theta\right)&=ln\;L\left(\theta\right)\\
&=ln\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)\\
&=\sum_{i=1}^m ln\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2}{2\sigma^2}\right)\\
&=m\,ln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\cdot\frac{1}{2}\sum_{i=1}^m \left(y^{\left(i\right)}-\theta^Tx^{\left(i\right)}\right)^2
\end{aligned}
\end{equation}
\begin{equation}
\boldsymbol{J}\left(\theta\right)=\frac{1}{2}\sum_{i=1}^m \left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2
\end{equation}
\begin{equation}
\begin{aligned}
\boldsymbol{J}\left(\theta\right)&=\frac{1}{2}\sum_{i=1}^m \left(h_\theta\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2 \\
&=\frac{1}{2}\left(X\,\theta-y\right)^T\left(X\,\theta-y\right)\\
&{=\frac{1}{2}\left(\theta^T\,X^T-y^T\right)\left(X\,\theta-y\right)}
\end{aligned}
\end{equation}
再对上述式子进行展开
\begin{equation}
\begin{aligned}
\boldsymbol{J}\left(\theta\right)&=\frac{1}{2}\left(\theta^T\,X^T\,X\,\theta-y^T\,X\,\theta-\theta^T\,X^T\,y+y^T\,y\right)\\
&=\frac{1}{2}\left(\left(X\,\theta\right)^2-y^T\,X\,\theta-\theta^T\,X^T\,y+y^2\right)
\end{aligned}
\end{equation}
现在如果求其最小值,则需要求驻点,即:
\begin{equation}
\begin{aligned}
\frac{\partial\boldsymbol{J}\left(\theta\right)}{\partial\theta}
&=\frac{1}{2}\left(2X^T\,X\,\theta-X^T\,y-\left(y^T\,X\right)^T\right)\\
&=\left(X^T\,X\,\theta-X^T\,y\right)\\
&=0
\end{aligned}
\end{equation}
解出 theta 的值
\begin{equation}
\theta=\left(X^T\,X\right)^{-1}X^T\,y
\end{equation}
其中,由于对矩阵和行列式求导都不是很熟悉,所以我们需要补充一段行列式和矩阵求导的运算。
首先介绍行列式求导:
\begin{equation}
\frac{\mathrm{d}}{\mathrm{d} x}\begin{vmatrix} x_{1,1} & \cdots & x_{1,n} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,n} \end{vmatrix}=\sum_{i=1}^n \begin{vmatrix} x_{1,1} & \cdots & x_{1,n} \\
\vdots & \ddots & \vdots \\ \frac{\mathrm{d} x_{i,1}}{\mathrm{d} x} & \cdots & \frac{\mathrm{d} x_{i,n}}{\mathrm {d} x} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,n} \end{vmatrix}
\end{equation}
致读者: 小时百科一直以来坚持所有内容免费,这导致我们处于严重的亏损状态。 长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。 因此,我们请求广大读者
热心打赏 ,使网站得以健康发展。 如果看到这条信息的每位读者能慷慨打赏 10 元,我们一个星期内就能脱离亏损, 并保证在接下来的一整年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获取知识, 我们在此表示感谢。