图

海森矩阵

   一个二阶可导的多元函数 $f( \boldsymbol{\mathbf{x}} )$ 的海森矩阵(Hessian) $ \boldsymbol{\mathbf{H}} $ 定义为

\begin{equation} H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j} \end{equation}
$f( \boldsymbol{\mathbf{x}} )$ 的泰勒展开的前两项可以用梯度矢量和海森矩阵表示为
\begin{equation} f( \boldsymbol{\mathbf{x}} ) = f( \boldsymbol{\mathbf{x}} _0) + ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0) + \frac12( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) \boldsymbol{\mathbf{H}} ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) + \mathcal{O}\left((x-x_0)^3 \right) \end{equation}
海森矩阵可以看做梯度矢量 $ \boldsymbol\nabla f$ 的雅可比矩阵, 即
\begin{equation} H_{ij} = \frac{\partial}{\partial{x_j}} \left( \frac{\partial f}{\partial x_i} \right) \end{equation}
所以有
\begin{equation} \,\mathrm{d}{( \boldsymbol\nabla f)} = \boldsymbol{\mathbf{H}} \,\mathrm{d}{ \boldsymbol{\mathbf{x}} } \end{equation}

   如果 $f( \boldsymbol{\mathbf{x}} )$ 是一个二阶函数, 海森矩将不随 $ \boldsymbol{\mathbf{x}} $ 变化. 所以有

\begin{equation} \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} ) - \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0) = \boldsymbol{\mathbf{H}} ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) \end{equation}
则函数的极值点为(令 $ \boldsymbol\nabla f = 0$)
\begin{equation} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{x}} _0 - \boldsymbol{\mathbf{H}} ^{-1} \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0) \end{equation}
这就是牛顿法寻找函数极小值的主要思路.

致读者: 小时物理百科一直以来坚持所有内容免费无广告,这导致我们处于日渐严重的亏损状态。长此以往很可能会最终导致我们不得不选择商业化,例如大量广告,内容付费, 甚至被收购。 因此,我们鼓起勇气在此请求广大读者热心捐款,使网站得以健康发展。如果看到这条信息的每位读者能慷慨捐助 10 元,我们一个星期内就能脱离亏损状态,并保证网站能在接下来的一整年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获得知识, 我们在此表示感谢。

编辑词条(需要权限) 返回目录 返回主页 捐助项目 © 小时物理百科 保留一切权利